Flink+Hudi 构架湖仓一体化解决方案

2023-11-06

摘要:本文详细介绍了 Flink + Hudi 湖仓一体化方案的原型构建。主要内容为:

  1. Hudi

  2. 新架构与湖仓一体

  3. 最佳实践

  4. Flink on Hudi

  5. Flink CDC 2.0 on Hudi

Tips:FFA 2021 重磅开启,点击「阅读原文」即可报名~

图片

 GitHub 地址 

图片

欢迎大家给 Flink 点赞送 star~

图片

一、Hudi

1. 简介

Apache Hudi (发音为 “Hoodie”)在 DFS 的数据集上提供以下流原语:

  • 插入更新 (如何改变数据集?)

  • 增量拉取 (如何获取变更的数据?)

Hudi 维护在数据集上执行的所有操作的时间轴 (timeline),以提供数据集的即时视图。Hudi 将数据集组织到与 Hive 表非常相似的基本路径下的目录结构中。数据集分为多个分区,文件夹包含该分区的文件。每个分区均由相对于基本路径的分区路径唯一标识。

分区记录会被分配到多个文件。每个文件都有一个唯一的文件 ID 和生成该文件的提交 (commit)。如果有更新,则多个文件共享相同的文件 ID,但写入时的提交 (commit) 不同。

存储类型 – 处理数据的存储方式

  • 写时复制

  • 纯列式

  • 创建新版本的文件

  • 读时合并

  • 近实时

视图 – 处理数据的读取方式

读取优化视图 - 输入格式仅选择压缩的列式文件

  • parquet 文件查询性能

  • 500GB 的延迟时间约为 30 分钟

  • 导入现有的 Hive 表

近实时视图

  • 混合、格式化数据

  • 约 1-5 分钟的延迟

  • 提供近实时表

增量视图

  • 数据集的变更

  • 启用增量拉取

Hudi 存储层由三个不同的部分组成:

  • 元数据 – 它以时间轴的形式维护了在数据集上执行的所有操作的元数据,该时间轴允许将数据集的即时视图存储在基本路径的元数据目录下。时间轴上的操作类型包括:

    • 提交 (commit),一次提交表示将一批记录原子写入数据集中的过程。单调递增的时间戳,提交表示写操作的开始。

    • 清理 (clean),清理数据集中不再被查询中使用的文件的较旧版本。

    • 压缩 (compaction),将行式文件转化为列式文件的动作。

  • 索引 - 将传入的记录键快速映射到文件 (如果已存在记录键)。索引实现是可插拔的,Bloom 过滤器 - 由于不依赖任何外部系统,因此它是默认配置,索引和数据始终保持一致。Apache HBase - 对少量 key 更高效。在索引标记过程中可能会节省几秒钟。

  • 数据 - Hudi 以两种不同的存储格式存储数据。实际使用的格式是可插入的,但要求具有以下特征 – 读优化的列存储格式 (ROFormat),默认值为 Apache Parquet;写优化的基于行的存储格式 (WOFormat),默认值为 Apache Avro。

图片

2. 为什么 Hudi 对于大规模和近实时应用很重要?

Hudi 解决了以下限制:

  • HDFS 的可伸缩性限制;

  • 需要在 Hadoop 中更快地呈现数据;

  • 没有直接支持对现有数据的更新和删除;

  • 快速的 ETL 和建模;

  • 要检索所有更新的记录,无论这些更新是添加到最近日期分区的新记录还是对旧数据的更新,Hudi 都允许用户使用最后一个检查点时间戳。此过程不用执行扫描整个源表的查询。

3. Hudi的优势

  • HDFS 中的可伸缩性限制;

  • Hadoop 中数据的快速呈现;

  • 支持对于现有数据的更新和删除;

  • 快速的 ETL 和建模。

以上内容主要引用于:《Apache Hudi 详解》

二、新架构与湖仓一体

通过湖仓一体、流批一体,准实时场景下做到了:数据同源、同计算引擎、同存储、同计算口径。数据的时效性可以到分钟级,能很好的满足业务准实时数仓的需求。下面是架构图:

图片

MySQL 数据通过 Flink CDC 进入到 Kafka。之所以数据先入 Kafka 而不是直接入 Hudi,是为了实现多个实时任务复用 MySQL 过来的数据,避免多个任务通过 Flink CDC 接 MySQL 表以及 Binlog,对 MySQL 库的性能造成影响。

通过 CDC 进入到 Kafka 的数据除了落一份到离线数据仓库的 ODS 层之外,会同时按照实时数据仓库的链路,从 ODS->DWD->DWS->OLAP 数据库,最后供报表等数据服务使用。实时数仓的每一层结果数据会准实时的落一份到离线数仓,通过这种方式做到程序一次开发、指标口径统一,数据统一。

从架构图上,可以看到有一步数据修正 (重跑历史数据) 的动作,之所以有这一步是考虑到:有可能存在由于口径调整或者前一天的实时任务计算结果错误,导致重跑历史数据的情况。

而存储在 Kafka 的数据有失效时间,不会存太久的历史数据,重跑很久的历史数据无法从 Kafka 中获取历史源数据。再者,如果把大量的历史数据再一次推到 Kafka,走实时计算的链路来修正历史数据,可能会影响当天的实时作业。所以针对重跑历史数据,会通过数据修正这一步来处理。

总体上说,这个架构属于 Lambda 和 Kappa 混搭的架构。流批一体数据仓库的各个数据链路有数据质量校验的流程。第二天对前一天的数据进行对账,如果前一天实时计算的数据无异常,则不需要修正数据,Kappa 架构已经足够。

本节内容引用自:37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

三、最佳实践

1. 版本搭配

版本选择,这个问题可能会成为困扰大家的第一个绊脚石,下面是hudi中文社区推荐的版本适配:

Flink Hudi
1.12.2 0.9.0
1.13.1 0.10.0

建议用 Hudi master + Flink 1.13 这样可以和 CDC connector 更好地适配。

2. 下载Hudi

https://mvnrepository.com/artifact/org.apache.Hudi/Hudi-Flink-bundle

目前 maven 中央仓库,最新版本是 0.9.0 ,如果需要下载 0.10.0 版本 , 可以加入社区群,在共享文件中下载,也可以下载源码自行编译。

3. 执行

如果将 Hudi-Flink-bundle_2.11-0.10.0.jar 放到了 Flink/lib 下,则只需要如下执行即可,否则会出现各种找不到类的异常

bin/SQL-client.sh embedded

四、Flink on Hudi

新建 maven 工程,修改 pom 如下:

 
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0"         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">    <modelVersion>4.0.0</modelVersion>
    <groupId>org.example</groupId>    <artifactId>Flink_Hudi_test</artifactId>    <version>1.0-SNAPSHOT</version>
    <properties>        <maven.compiler.source>8</maven.compiler.source>        <maven.compiler.target>8</maven.compiler.target>        <Flink.version>1.13.1</Flink.version>        <Hudi.version>0.10.0</Hudi.version>        <hadoop.version>2.10.1</hadoop.version>    </properties>
    <dependencies>

        <dependency>            <groupId>org.apache.hadoop</groupId>            <artifactId>hadoop-client</artifactId>            <version>${hadoop.version}</version>        </dependency>        <dependency>            <groupId>org.apache.hadoop</groupId>            <artifactId>hadoop-hdfs</artifactId>            <version>${hadoop.version}</version>        </dependency>        <dependency>            <groupId>org.apache.hadoop</groupId>            <artifactId>hadoop-common</artifactId>            <version>${hadoop.version}</version>        </dependency>

        <dependency>            <groupId>org.apache.Flink</groupId>            <artifactId>Flink-core</artifactId>            <version>${Flink.version}</version>        </dependency>        <dependency>            <groupId>org.apache.Flink</groupId>            <artifactId>Flink-streaming-java_2.11</artifactId>            <version>${Flink.version}</version>        </dependency>
        <dependency>            <groupId>org.apache.Flink</groupId>            <artifactId>Flink-connector-jdbc_2.11</artifactId>            <version>${Flink.version}</version>        </dependency>
        <dependency>            <groupId>org.apache.Flink</groupId>            <artifactId>Flink-java</artifactId>            <version>${Flink.version}</version>        </dependency>        <dependency>            <groupId>org.apache.Flink</groupId>            <artifactId>Flink-clients_2.11</artifactId>            <version>${Flink.version}</version>        </dependency>        <dependency>            <groupId>org.apache.Flink</groupId>            <artifactId>Flink-table-api-java-bridge_2.11</artifactId>            <version>${Flink.version}</version>        </dependency>        <dependency>            <groupId>org.apache.Flink</groupId>            <artifactId>Flink-table-common</artifactId>            <version>${Flink.version}</version>        </dependency>
        <dependency>            <groupId>org.apache.Flink</groupId>            <artifactId>Flink-table-planner_2.11</artifactId>            <version>${Flink.version}</version>        </dependency>
        <dependency>            <groupId>org.apache.Flink</groupId>            <artifactId>Flink-table-planner-blink_2.11</artifactId>            <version>${Flink.version}</version>        </dependency>        <dependency>            <groupId>org.apache.Flink</groupId>            <artifactId>Flink-table-planner-blink_2.11</artifactId>            <version>${Flink.version}</version>            <type>test-jar</type>        </dependency>
        <dependency>            <groupId>com.ververica</groupId>            <artifactId>Flink-connector-mySQL-CDC</artifactId>            <version>2.0.0</version>        </dependency>
        <dependency>            <groupId>org.apache.Hudi</groupId>            <artifactId>Hudi-Flink-bundle_2.11</artifactId>            <version>${Hudi.version}</version>            <scope>system</scope>            <systemPath>${project.basedir}/libs/Hudi-Flink-bundle_2.11-0.10.0-SNAPSHOT.jar</systemPath>        </dependency>
        <dependency>            <groupId>mySQL</groupId>            <artifactId>mySQL-connector-java</artifactId>            <version>5.1.49</version>        </dependency>

    </dependencies></project>

我们通过构建查询insert into t2 select replace(uuid(),'-',''),id,name,description,now() from mySQL_binlog 将创建的 MySQL 表,插入到 Hudi 里。

package name.lijiaqi;
import org.apache.Flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.Flink.table.api.EnvironmentSettings;import org.apache.Flink.table.api.SQLDialect;import org.apache.Flink.table.api.TableResult;import org.apache.Flink.table.api.bridge.java.StreamTableEnvironment;
public class MySQLToHudiExample {    public static void main(String[] args) throws Exception {        EnvironmentSettings fsSettings = EnvironmentSettings.newInstance()                .useBlinkPlanner()                .inStreamingMode()                .build();        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();        env.setParallelism(1);        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, fsSettings);
        tableEnv.getConfig().setSQLDialect(SQLDialect.DEFAULT);
        // 数据源表        String sourceDDL =                "CREATE TABLE mySQL_binlog (\n" +                        " id INT NOT NULL,\n" +                        " name STRING,\n" +                        " description STRING\n" +                        ") WITH (\n" +                        " 'connector' = 'jdbc',\n" +                        " 'url' = 'jdbc:mySQL://127.0.0.1:3306/test', \n"+                        " 'driver' = 'com.mySQL.jdbc.Driver', \n"+                        " 'username' = 'root',\n" +                        " 'password' = 'dafei1288', \n" +                        " 'table-name' = 'test_CDC'\n" +                        ")";
        // 输出目标表        String sinkDDL =                "CREATE TABLE t2(\n" +                        "\tuuid VARCHAR(20),\n"+                        "\tid INT NOT NULL,\n" +                        "\tname VARCHAR(40),\n" +                        "\tdescription VARCHAR(40),\n" +                        "\tts TIMESTAMP(3)\n"+//                        "\t`partition` VARCHAR(20)\n" +                        ")\n" +//                        "PARTITIONED BY (`partition`)\n" +                        "WITH (\n" +                        "\t'connector' = 'Hudi',\n" +                        "\t'path' = 'hdfs://172.19.28.4:9000/Hudi_t4/',\n" +                        "\t'table.type' = 'MERGE_ON_READ'\n" +                        ")" ;        // 简单的聚合处理        String transformSQL =                "insert into t2 select replace(uuid(),'-',''),id,name,description,now()  from mySQL_binlog";
        tableEnv.executeSQL(sourceDDL);        tableEnv.executeSQL(sinkDDL);        TableResult result = tableEnv.executeSQL(transformSQL);        result.print();
        env.execute("mySQL-to-Hudi");    }}

 

查询 Hudi

 

package name.lijiaqi;
import org.apache.Flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.Flink.table.api.EnvironmentSettings;import org.apache.Flink.table.api.SQLDialect;import org.apache.Flink.table.api.TableResult;import org.apache.Flink.table.api.bridge.java.StreamTableEnvironment;
public class ReadHudi {    public static void main(String[] args) throws Exception {        EnvironmentSettings fsSettings = EnvironmentSettings.newInstance()                .useBlinkPlanner()                .inStreamingMode()                .build();        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();        env.setParallelism(1);        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, fsSettings);
        tableEnv.getConfig().setSQLDialect(SQLDialect.DEFAULT);
        String sourceDDL =                "CREATE TABLE t2(\n" +                        "\tuuid VARCHAR(20),\n"+                        "\tid INT NOT NULL,\n" +                        "\tname VARCHAR(40),\n" +                        "\tdescription VARCHAR(40),\n" +                        "\tts TIMESTAMP(3)\n"+//                        "\t`partition` VARCHAR(20)\n" +                        ")\n" +//                        "PARTITIONED BY (`partition`)\n" +                        "WITH (\n" +                        "\t'connector' = 'Hudi',\n" +                        "\t'path' = 'hdfs://172.19.28.4:9000/Hudi_t4/',\n" +                        "\t'table.type' = 'MERGE_ON_READ'\n" +                        ")" ;        tableEnv.executeSQL(sourceDDL);        TableResult result2 = tableEnv.executeSQL("select * from t2");        result2.print();
        env.execute("read_Hudi");    }}

展示结果

五、Flink CDC 2.0 on Hudi

上一章节,我们使用代码形式构建实验,在本章节里,我们直接使用官网下载的 Flink 包来构建实验环境。

1. 添加依赖

添加如下依赖到 $Flink_HOME/lib 下:

  • Hudi-Flink-bundle_2.11-0.10.0-SNAPSHOT.jar (修改 Master 分支的 Hudi Flink 版本为 1.13.2 然后构建)

  • hadoop-mapreduce-client-core-2.7.3.jar (解决 Hudi ClassNotFoundException)

  • Flink-SQL-connector-mySQL-CDC-2.0.0.jar

  • Flink-format-changelog-json-2.0.0.jar

  • Flink-SQL-connector-Kafka_2.11-1.13.2.jar

注意,在寻找 jar 的时候,CDC 2.0 更新过 group id ,不再试com.alibaba.ververica 而是改成了 com.ververica

2. Flink SQL CDC on Hudi

创建 MySQL CDC 表

 

CREATE  TABLE mySQL_users ( id BIGINT PRIMARY KEY NOT ENFORCED , name STRING, birthday TIMESTAMP(3), ts TIMESTAMP(3)) WITH ( 'connector' = 'mySQL-CDC', 'hostname' = 'localhost', 'port' = '3306', 'username' = 'root', 'password' = 'dafei1288', 'server-time-zone' = 'Asia/Shanghai', 'database-name' = 'test', 'table-name' = 'users'   );

创建 Hudi 表

 

CREATE TABLE Hudi_users5( id BIGINT PRIMARY KEY NOT ENFORCED,    name STRING,    birthday TIMESTAMP(3),    ts TIMESTAMP(3),    `partition` VARCHAR(20)) PARTITIONED BY (`partition`) WITH (    'connector' = 'Hudi',    'table.type' = 'MERGE_ON_READ',    'path' = 'hdfs://localhost:9009/Hudi/Hudi_users5');

修改配置,让查询模式输出为表,设置 checkpoint

set execution.result-mode=tableau;set execution.checkpointing.interval=10sec;

进行输入导入

INSERT INTO Hudi_users5(id,name,birthday,ts, `partition`) SELECT id,name,birthday,ts,DATE_FORMAT(birthday, 'yyyyMMdd') FROM mySQL_users;

查询数据

select * from Hudi_users5;

执行结果

3. 卡执行计划

图片

这个问题研究了很久,表面上很正常,日志也没有任何报错,也可以看出来 CDC 起作用了,有数据写入,但是就是卡在 hoodie_stream_write 上一动不动,没有数据下发。感谢社区大佬 Danny Chan 的提点,可能是 checkpoint的问题,于是做了设置:

set execution.checkpointing.interval=10sec;

终于正常:

图片

至此,Flink + Hudi 湖仓一体化方案的原型构建完成。

参考链接

[1] https://blog.csdn.net/qq_37095882/article/details/103714548

[2] https://blog.csdn.net/weixin_49218925/article/details/115511022

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Flink+Hudi 构架湖仓一体化解决方案 的相关文章

随机推荐

  • ajax如何获多个上传文件,Ajaxupload如何实现多文件上传操作

    Ajaxupload如何实现多文件上传操作 发布时间 2021 07 24 10 50 09 来源 亿速云 阅读 56 作者 小新 这篇文章主要介绍了Ajaxupload如何实现多文件上传操作 具有一定借鉴价值 感兴趣的朋友可以参考下 希望
  • 基于Simulink的ask,psk,fsk仿真

    基于Simulink的ask psk fsk仿真 本实验基于matlab的simulink 实验步骤如下 单极性基带信号和双极性基带信号 利用simulink中的Bernoulli Binary Generator可以产生随机的二进制信号
  • STL之queue

    queue是容器适配器 没有迭代器 queue的所有元素的进出都必须符合先进先出的条件 没有走访功能 STL中deque和list都可以作为queue的底层容器 缺省使用deque实现 ifndef STL LIMITED DEFAULT
  • CANN-AICPU算子开发

    1 算子 算子是一个函数空间到函数空间上的映射O X gt X 广义的讲 对任何函数进行某一项操作都可以认为是一个算子 在Caffe中 算子对应层中的计算逻辑 例如 卷积层中的卷积算法 是一个算子 全连接层中的权值求和过程 是一个算子 算子
  • php google gmail第三方登录

    生成秘钥 获取ID 秘钥 下载PHP SDK SDK链接 代码 gmail 授权页与回调接口公用一个接口 没有code时进入授权页 用户登录google 授权 之后google 带code 等信息 回调此接口 需要在console deve
  • 顺序表基本操作(完整)

    Seqlist h define CRT SECURE NO WARNINGS 1 pragma once include
  • pandas 怎么修改某一列的数据

    如果你想修改某一列的数据 你可以使用 df loc column name 来获取这一列的数据 然后你可以对这一列使用赋值操作 就可以修改这一列的数据了 例如 df loc column name new values 这里的 new va
  • 深入解析分段与分页

    分段 分页 引言 什么是碎片 段式模型的前身 基址加界限寄存器 动态重定位 分段式管理 分段思想 分段地址转换 段的另一个优点 很好的支持共享 虚拟地址翻译太慢 段的缺点 过多的外部碎片 分页式管理 分页思想 分页地址转换 分页的缺点 页表
  • 海康ipc onvif抓包分析

    型号 半球DS 2CD2122FWD IWS 子码流的地址 101 1 rtsp admin hik12345 10 7 36 222 554 Streaming Channels 102 transportmode unicast rts
  • 前端开发有哪些技术栈要掌握_为什么要掌握前端开发的这四个主要概念

    前端开发有哪些技术栈要掌握 After working as a front end developer for three years I have been able to summarize what I feel are the f
  • (个人)AR电子书系统创新实训第四周(2)

    使用Json保存数据索引 在成功地配置好服务器并进行了访问测试后 打包上传数据的功能只剩下最后一步需要测试了 那就是对数据关系的组织及保存 对于AR识别来说 数据的内容主要有两类 一类是用于进行位置判断的目标图像 在这个项目中就是宣传册上的
  • 毕业设计-基于深度学习的垃圾分类识别方法

    目录 前言 课题背景和意义 实现技术思路 一 目标检测算法对比研究 二 垃圾数据集的制作 实现效果图样例 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实习为毕业后面临的就业升学做准备 一边要为毕业设计耗费大量精力 近几年各个
  • 基于java springboot vue实现的校园招聘系统

    基于java springboot vue实现的校园招聘系统 总体分为三端 分别为 管理员 用户 企业 用户端 管理员端 企业端
  • layui table切换html,layui-table对返回的数据进行转变显示的实例

    在使用layui表格时 在ajax请求回来的数据 有时候需要我们处理之后显示 1 比如性别sex这个字段 后台可能返回的是1 或者 2 那我们总不能显示1 和 2 我们需要显示男和女 这里就用到了自定义模板了 if d sex 1 男 el
  • RS485转0_20mA输出模块设计

    文章目录 1 简介 2 功能实现 3 测试 4 开源地址 1 简介 结合以前发的文章 我们知道 模拟量输出有两种 一种是共地型 一种是共源型 今天开源一款rs485隔离的转0 20ma输出模块的设计 我设计模块的原因是为了测试公司的一款模拟
  • 基础算法题——异或(复杂度的小差异)

    异或 题目描述 给定一个长度为 n 初始全为 0 的数列 ai 下标从 1 开始 定义操作模 k 异或 v 为对所有满足 ki 0 mod k 的下标 i 将异或上整数v 即令 ai ai v 给出q次操作 每次操作之后输出序列的异或和 并
  • js插入前后

  • 【2023.07.15】生成模型(三)Score-based Generative Models

    1 main contribution 来自Score based Generative Model的原文 1 提供了一个统一SMLD denoising score matching with langevin dynamics 和DDP
  • MPLS LDP的原理与配置

    一 LDP协议的概述 1 LDP会话 本地会话 LSR之间是直连的 双方使用组播地址224 0 0 2建立会话 远程会话 LSR之间可以是非直连的 双方建立会话是使用单播建立的 缺省是本地会话 2 LDP领接体 只要双方建立了会话之后就建立
  • Flink+Hudi 构架湖仓一体化解决方案

    摘要 本文详细介绍了 Flink Hudi 湖仓一体化方案的原型构建 主要内容为 Hudi 新架构与湖仓一体 最佳实践 Flink on Hudi Flink CDC 2 0 on Hudi Tips FFA 2021 重磅开启 点击 阅读