基于Delta lake、Hudi格式的湖仓一体方案

2023-10-30

简介: Delta Lake 和 Hudi 是流行的开放格式的存储层,为数据湖同时提供流式和批处理的操作,这允许我们在数据湖上直接运行 BI 等应用,让数据分析师可以即时查询新的实时数据,从而对您的业务产生即时的洞察。MaxCompute 在湖仓一体架构中,通过支持 Delta Lake 和 Hudi 在数据湖中提供数据仓库性能。

本文作者 孟硕 阿里云智能 产品专家

一、最佳实践背景

整个最佳实践是基于MaxCompute的湖仓一体架构,模拟公司使用场景。比如公司 A 使用云上关系型数据库 RDS 作为自己的业务库,同时使用阿里云 EMR 系统做日志数据采集。将数据汇集到云上对象存储 OSS 上,引入了数据湖常会用的存储机制 Delta Lake 和 Hudi 为数据湖提供流处理、批处理能力。通过 MaxCompute 查询到实时数据,即时洞察业务数据变化。 整个场景demo的架构是,云上EMR产生的实时变化的数据,包括在线数据库RDS,通过数据入湖,然后实时的把数据变化体现在归档的OSS 上。同时MaxCompute跟其他引擎一起分析OSS上的数据。

湖仓一体架构:异构数据平台融合

因为企业内部会有很多业务线,不同的部门,因为本身业务的需求及员工的技术栈几个方面的原因,导致采用的数据架构不一样,数据平台也不一样。技术架构有Hadoop技术体系,也有云上全托管架构,所以造成不同的部门对技术架构,使用的技术平台不一样,也造成了数据割裂的情况。湖仓一体就是帮助企业把异构数据平台做一个打通,底层数据可以相互访问,中间元数据层也可以做到互相透视,数据可以做到自由流动。数据湖部分不只是支持EMR,也支持ESC Hadoop和云下IDC Hadoop。其中MaxCompute数据仓库也可以和数据湖EMR做一个数据打通,在用MaxCompute跟联播数据源做一个联播查询,这样可以把所有的数据在MaxCompute中做一个汇总。比如有三张表,在RDS和Hive中,同事MaxCompute里有大量事实表,如果需求是对这个三个表做一个联合查询,通过这个架构,可以很方便的做到这一点。

更快的业务洞察

  • DataWorks 自助开通湖仓一体:5分钟打通异构数据平台(Hadoop/ DLF+OSS )

更广泛的生态对接

  • 支持对接阿里云云原生数据湖构建(DLF)
  • 支持查询 DeltaLake、Hudi 格式
  • 支持对接更多外部联邦数据源 Hologres (RDS、HBaseUpcoming! )

更高的性能

  • 智能 Cache 实现 OSS/ HDFS 数据访问加速
  • 湖数据查询加速

更好的综合数据开发与治理

  • 跨引擎开发和调度
  • 统一湖/仓数据开发体验
  • 统一湖/仓全局资产管理
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

基于Delta lake、Hudi格式的湖仓一体方案 的相关文章

随机推荐

  • html canvas画背景图片,使用canvas画图并充当背景图片,但出现奇怪效果_html/css_WEB-ITnose...

    这是初始的样子 我想要的效果是这颗心不随滚动条滚动 当我拖动滚动条的时候 这颗心跟着移动了 但原位置固定了另一颗心 继续拖动滚动条 由此可见 初始页面的心会随着滚动条移动 但同时有另一个心被固定在中间 我只想要让这个心被固定在中心 不会因为
  • figma的一些用法(一)

    1 新建frame画布 2 圆角按钮 3 放大字体并设置效果
  • 普通域用户远程桌面登录域控制器

    想个一个普通用户登录域控制器进行添加用户等操作 将此用户设置到运行远程桌面登录 但是登录的时候提示 要登录到这台远程计算机 您必须被授予允许通过终端登录权限 默认情况下 管理员 组的成员拥有该权限 在域控上单独设置远程桌面登录没有用 还需要
  • JSP+Servlet+JavaBean 开发案例——求和运算

    问题 利用 JSP Servlet JavaBean 编程 实现任意两个整数的累加值 并显示结果 分析 该题目采用JSP Servlet JavaBean模式 按其不同的职责 由JavaBean封装业务逻辑处理计算累加值 由JSP实现信息的
  • C#中的??、?:和?

    可空类型修饰符 引用类型可以使用空引用表示一个不存在的值 而值类型通常不能表示为空 例如 string str null 是正确的 int i null 编译器就会报错 为了使值类型也可为空 就可以使用可空类型 即用可空类型修饰符 来表示
  • nginx的基本配置

    1 静态HTTP服务器 首先 Nginx是一个HTTP服务器 可以将服务器上的静态文件 如HTML 图片 通过HTTP协议展现给客户端 2 反向代理服务器 什么是反向代理 客户端本来可以直接通过HTTP协议访问某网站应用服务器 如果网站管理
  • 中国天气网接口类(中国天气预报)

    新写的中国天气网api接口类 分享给大家 妈妈再也不用担心我出门被天气君欺负了 只需修改两个参数 private key appid 即可使用 这两个参数从中国天气网获取 地址是 http openweather weather com c
  • 23. 异步HTTP请求与aiohttp模块

    目录 前言 aiohttp简介 aiohttp安装 aiohttp应用 先导包 拿到了批量URL 仿照上一节敲出模板 完善下载单个页面的代码 完整代码 运行效果 总结 前言 在上一节中 我们发现time sleep 不是异步的 导致我们的异
  • 虚幻4学习笔记(12)操控导入的角色、动画蓝图、播放蒙太奇和打包、角色重定向

    虚幻4学习笔记 操控导入的角色 设置鼠标旋转 关掉动态模糊 动画蓝图 播放蒙太奇和打包 角色走路奔跑动画 shift 奔跑 F 跳舞 移动打断 跳舞 打包 角色重定向 姿势调整 解决跑步 腿分太开 隐藏剑 B站UP谌嘉诚课程 https w
  • Java String字符串转int数组

    String类的toCharArray 方法可将字符串转为数组 abcde 转为 a b c d e 123456 转为 1 2 3 4 5 6 char型 将String字符串转换为int数组 数字范围0 9 param str 字符串
  • 【Docker】Docker镜像和Docker容器

    文章目录 Docker镜像 镜像基本概念 为什么需要镜像 Union FS 联合文件挂载 docker镜像原理 Docker镜像命令 docker rmi docker save docker load docker history doc
  • ORB-SLAM2第四节---跟踪线程(阶段一)

    1 参考帧跟踪 应用场景 刚刚初始化 恒速模型失败 流程 将当前普通帧的描述子转化为词袋向量 通过词袋加快普通帧和关键帧之间的特征点匹配 记录特征匹配成功后当前帧每个特征点对应的地图点 将上一帧的位姿作为当前帧位姿 通过3D 2D重投影误差
  • 一文搞懂单向散列函数

    1 定义 单向散列函数 one way hash function 是指对不同的输入值 通过单向散列函数进行计算 得到固定长度的输出值 这个输入值称为消息 message 输出值称为散列值 hash value 单向散列函数也被称为消息摘要
  • 利用曲线理解饱和区,饱和区和放大区之间的虚线是临界饱和线

    三极管在硬件设计中太过普遍了 不过要很好的理解三级管的特性 却没有那么简单 下图的曲线中截止区和放大区理解较为容易 而饱和区不能看图理解 否则会很迷糊 1 截止区 简单的讲就是三极管未导通 Ube lt 打开电压 一般是小于0 5或者0 7
  • bean集合转String集合或数组

    单独将List的某个属性转化为List 先将List对象转化为流 再对List里的对象进行操作 单独将sfcMessage getResultflag 返回成结果集 再转化为List对象 List
  • Eclipse下载及安装

    1 访问Eclipse官网 https www eclipse org 2 点击 Download 跳转到Eclipse软件的下载界面 3 点击页面的 Download x86 64 下载安装文件 或者点击 Download Package
  • 微型计算机nuc 6i5syk,Intel 英特尔 NUC Kit NUC6i5SYH 紧凑型准系统 开箱(附让人崩溃的系统问题)...

    Intel 英特尔 NUC Kit NUC6i5SYH 紧凑型准系统 开箱 附让人崩溃的系统问题 2016 03 28 16 20 00 45点赞 229收藏 137评论 追加修改 2016 03 29 09 20 23 我来补充一下 因特
  • Linux001

    1 问题的发现 最早出现这个问题是我想要用 apt 安装 ccls 的时候出现的 即执行指令 sudo apt get install ccls 或 sudo apt install ccls 时出现报错 Temporary failure
  • 学习yolo之tensorflow-gpu环境配置(win10)

    导语 自己到处学习了一些深度学习的皮毛 深切感受到没有GPU 真是不要和人家谈什么效率 人家一天跑好几个代码 如果你没有GPU 训练起来几天才跑一个代码 我之前在笔记本试过跑深度学习的hello world MNIST 使用的是softma
  • 基于Delta lake、Hudi格式的湖仓一体方案

    简介 Delta Lake 和 Hudi 是流行的开放格式的存储层 为数据湖同时提供流式和批处理的操作 这允许我们在数据湖上直接运行 BI 等应用 让数据分析师可以即时查询新的实时数据 从而对您的业务产生即时的洞察 MaxCompute 在