数据湖是什么?

2023-11-02

数据湖或hub的概念最初是由大数据厂商提出的。不同的厂商有不同的定义。

维基百科定义:数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件。数据湖通常是企业中全量数据的单一存储。全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,各类任务包括报表、可视化、高级分析和机器学习。数据湖中包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频)。

数据沼泽是一种退化的、缺乏管理的数据湖,数据沼泽对于用户来说要么是不可访问的要么就是无法提供足够的价值。

阿里定义:数据湖是一个集中式存储库,可存储任意规模结构化和非结构化数据,支持大数据和AI计算。数据湖构建服务(Data Lake Formation,DLF)作为云原生数据湖架构核心组成部分,帮助用户简单快速地构建云原生数据湖解决方案。数据湖构建提供湖上元数据统一管理、企业级权限控制,并无缝对接多种计算引 擎,打破数据孤岛,洞察业务价值。

因此,data lake的突出特点是:

1.任意规模结构化

2.非结构化存储

阿里京玄老师:

数据湖不应该从一个简单的技术平台视角来看,实现数据湖的方式也多种多样,评价一个数据湖解决方案是否成熟,关键应该看其提供的数据管理能力,具体包括但不限于元数据、数据资产目录、数据源、数据处理任务

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据湖是什么? 的相关文章

  • Qt编写自定义控件大全

    最新版可执行文件 https pan baidu com s 1Y z4GT4kslgsb4f46yLILA 不定期增加控件及修正BUG和改进算法 目前已超过90个控件 总图 总图 1 动画按钮 1 可设置显示的图像和底部的文字 2 可设置
  • jenkins部署jeecg-boot3.1(前后端)自动化

    tip 我是使用我的腾讯云轻量应用服务器做的本次实战 操作系统 CentOS 7 6 64bit 主机规格 CPU 4核 内存 4GB 这个配置起前端有点带不动 建议8G内存 这个问题我反复测试很多次 一跑npm 就开始疯狂占资源 然后操作

随机推荐

  • 联想服务器开机引导,联想服务器怎么进入bios

    联想电脑设置起来比较麻烦 除了快捷启动菜单比较方便 如果要用传统的方式进行设置 会有很多项要设置 那么你知道联想服务器怎么进入bios吗 接下来 学习啦小编跟你分享联想服务器进入bios的设置步骤图解 联想服务器进入bios的设置步骤图解
  • word文档 文字变网址 解决办法

    word文档中文字变网址解决办法 问题描述 打开word文档发现其中有些文字变成了网址 解决办法 Alt F9 联想键盘 Alt Fn F9 这是因为直接按F9是功能键
  • n对括号的匹配方式(卡特兰数)

    4对 括号有多少种可能的合法 匹配方式 n对 括号呢 此题是卡特兰数的一个通常应用 相似的还有出栈顺序等 关于卡特兰数的具体内容 请参阅百度百科或Wiki http baike baidu com view 2499752 htm 网络上可
  • 泛型与正则表达式在Java编程中扮演着重要的角色

    泛型与正则表达式在Java编程中扮演着重要的角色 泛型提供了一种在编译时期检查类型安全性的机制 而正则表达式则允许我们以模式匹配的方式进行字符串的处理 本文将详细介绍Java中泛型和正则表达式的基础知识 并提供相应的源代码示例 泛型 什么是
  • 笔记:springboot-admin 整合spring security应用注册失败问题

    问题描述 原本正常的springboot admin 在整合了spring security之后就无法正常注册应用了 查看打印 Failed to register application as Application name admin
  • Android 中Activity和Fragment生命周期的具体变化详解

    博主前些天发现了一个巨牛的人工智能学习网站 通俗易懂 风趣幽默 忍不住也分享一下给大家 点击跳转到网站 前言 一个MainActivity中装载了两个Fragment 在MainActivity中的onCreate 方法中进行了Fragme
  • ​ 输入一个字符串,将其中所有的大写和小写字母改成该字母的下一个字母,z 的下一个字母为 a。JAVA

    import java util Scanner public class Main public static void main String args Scanner scanner new Scanner System in Str
  • 【Unity】四叉树/八叉树管理和动态加载场景物件

    一 引言 场景的组织与管理是3d游戏开发中重要的一环 unity3d引擎中 只提供了最基本的场景组织 当我们加载场景时 会将场景中的物件及其依赖的资源全部加载出来 这对于较为庞大的场景显然是不合理的 可以考虑在进入场景时预先将可见范围内的物
  • GO中树的实现与学习

    go 的书写很像C 然后以前没有弄明白的事情终于弄明白了 这一次是树的重新学习和深入学习 树的学习 基本二叉树 树的基本创建 方法一 方法二 树的遍历 先序遍历非递归 中序遍历非递归 后序遍历非递归 层序遍历 树的深度 DFS BFS 搜索
  • 如何优雅地下载huggingface上模型,以llama2模型下载为例

    背景 由于llama2模型的下载需要经过官方的授权 这就需要登陆hugging face的 对模型页面进行申请 等待审核通过后 才能够下载 如果在单纯用 git lfs 的方式进行下载 需要输入账号和密码 为了更快速地进行下载 既能够设置密
  • TCP/IP协议及常见状态码(SYN,FIN,ACK,PSH,RST)

    TCP IP协议及常见状态码 SYN FIN ACK PSH RST 1 TCP IP协议 2 TCP协议原理 3 TCP报文格式 4 三次握手的状态码 对于软件测试工程师 前后端工程师 网络工程师 运维工程师等都需要对计算机网络基础知识有
  • SpringCloud构建微服务之基础环境搭建

    前言 本次我们将使用SpringCloud构建一个用户微服务案例 Consumer消费者 Client 通过REST调用Provider提供者 Server 提供的服务 构建环境 SpringCloud Dalston SR1 Spring
  • ChatGPT实现代码解释

    代码解释 新手程序员在入门之初 最好的学习路径就是直接阅读其他人的代码 从中学会别人是怎么写的 为什么这么写 过去 这个学习过程可能需要广泛阅读官方文档 在 GitHub issue 上提问 上 Stack Overflow 网站查询 见缝
  • WebView加载网页不显示图片解决办法

    对于大家来讲WebView肯定很熟悉 因为我们在日常开发中经常用到它 所以对于它的一些基本用法我就不在这啰嗦了 直接进入正题 我遇到的问题就是在使用WebView加载网页的时候图片不显示 我手机系统是5 1 1 当时出现这个问题我就想当然的
  • Google Protobuf自动反射功能

    Google Protobuf自动反射功能 看了下Google Protobuf的源码 对于反射机制 无论c 实现还是java实现都是采用map查找 这个应很高效率 实际我们在项目中无形中也用 到了这种思路 仅仅没系统化 通过一个类的原型对
  • webpack5 学习(九)—— 环境变量

    webpack 命令行环境配置的 env 参数 允许传入任意数量的环境变量 在 webpack config js 中可以访问到这些环境变量 例如 env production 或 env goal local npx webpack en
  • 算法设计艺术——编程珠玑第八章

    算法设计艺术 编程珠玑第八章 下面是书本中讲解的四个算法 问题 求一维数组中连续子向量的最大和 例如 a 6 3 4 2 9 10 8 则最大连续子向量的和 为 10 8 18 1 解法一 简单算法 html view plain copy
  • Shell函数的7种用法介绍

    1 在shell文件内部定义函数并引用 复制代码代码如下 shell function cat factorial sh bin bash function factorial factorial 1 for i 1 i lt 1 i do
  • mysql mariadb中查询查询用户和权限总结 及备份

    一 在mysql数据中 自带以下张表 存储用户的表在myql数据库的user表中 Database information schema mysql performance schema SELECT User Host Password
  • 数据湖是什么?

    数据湖或hub的概念最初是由大数据厂商提出的 不同的厂商有不同的定义 维基百科定义 数据湖是一类存储数据自然 原始格式的系统或存储 通常是对象块或者文件 数据湖通常是企业中全量数据的单一存储 全量数据包括原始系统所产生的原始数据拷贝以及为了