使用 Iceberg on Kubernetes 打造新一代云原生数据湖

2023-11-11

背景

大数据发展至今，按照 Google 2003年发布的《The Google File System》第一篇论文算起，已走过17个年头。可惜的是 Google 当时并没有开源其技术，“仅仅”是发表了三篇技术论文。所以回头看，只能算是揭开了大数据时代的帷幕。随着 Hadoop 的诞生，大数据进入了高速发展的时代，大数据的红利及商业价值也不断被释放。现今大数据存储和处理需求越来越多样化，在后 Hadoop 时代，如何构建一个统一的数据湖存储，并在其上进行多种形式的数据分析，成了企业构建大数据生态的一个重要方向。怎样快速、一致、原子性地在数据湖存储上构建起 Data Pipeline，成了亟待解决的问题。并且伴随云原生时代到来，云原生天生具有的自动化部署和交付能力也正催化这一过程。本文就主要介绍如何利用 Iceberg 与 Kubernetes 打造新一代云原生数据湖。

何为 Iceberg

Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.

Apache Iceberg 是由 Netflix 开发开源的，其于2018年11月16日进入 Apache 孵化器，是 Netflix 公司数据仓库基础。Iceberg 本质上是一种专为海量分析设计的表格式标准，可为主流计算引擎如 Presto、Spark 等提供高性能的读写和元数据管理能力。Iceberg 不关注底层存储（如 HDFS）与表结构（业务定义），它为两者之间提供了一个抽象层，将数据与元数据组织了起来。

Iceberg 主要特性包括：

ACID：具备 ACID 能力，支持 row level update/delete；支持 serializable isolation 与 multiple concurrent writers
Table Evolution：支持 inplace table evolution（schema & partition），可像 SQL 一样操作 table schema；支持 hidden partitioning，用户无需显示指定
接口通用化：为上层数据处理引擎提供丰富的表操作接口；屏蔽底层数据存储格式差异，提供对 Parquet、ORC 和 Avro 格式支持

依赖以上特性，Iceberg 可帮助用户低成本的实现 T+0 级数据湖。

Iceberg on Kubernetes

传统方式下，用户在部署和运维大数据平台时通常采用手动或半自动化方式，这往往消耗大量人力，稳定性也无法保证。Kubernetes 的出现，革新了这一过程。Kubernetes 提供了应用部署和运维标准化能力，用户业务在实施 Kubernetes 化改造后，可运行在其他所有标准 Kubernetes 集群中。在大数据领域，这种能力可帮助用户快速部署和交付大数据平台（大数据组件部署尤为复杂）。尤其在大数据计算存储分离的架构中，Kubernetes 集群提供的 Serverless 能力，可帮助用户即拿即用的运行计算任务。并且再配合离在线混部方案，除了可做到资源统一管控降低复杂度和风险外，集群利用率也会进一步提升，大幅降低成本。

我们可基于 Kubernetes 构建 Hadoop 大数据平台：

在近几年大热的数据湖领域，通过传统 Hadoop 生态构建实时数据湖，受制于组件定位与设计，较为复杂与困难。Iceberg 的出现使得依赖开源技术快速构建实时数据湖成为可能，这也是大数据未来发展方向 - 实时分析、仓湖一体与云原生。引入 Iceberg 后，整体架构变为：

Kubernetes 负责应用自动化部署与资源管理调度，为上层屏蔽了底层环境复杂性。Iceberg + Hive MetaStore + HDFS 实现了基于 Hadoop 生态的实时数据湖，为大数据应用提供数据访问及存储。Spark、Flink 等计算引擎以 native 的方式运行在 Kubernetes 集群中，资源即拿即用。与在线业务混部后，更能大幅提升集群资源利用率。

如何构建云原生实时数据湖

架构图

资源层：Kubernetes 提供资源管控能力
数据层：Iceberg 提供 ACID、table 等数据集访问操作能力
存储层：HDFS 提供数据存储能力，Hive MetaStore 管理 Iceberg 表元数据，Postgresql 作为 Hive MetaStore 存储后端
计算层：Spark native on Kubernetes，提供流批计算能力

创建 Kubernetes 集群

首先通过官方二进制或自动化部署工具部署 Kubernetes 集群，如 kubeadm，推荐使用腾讯云创建 TKE 集群。

推荐配置为：3 台 S2.2XLARGE16（8核16G）实例

部署 Hadoop 集群

可通过开源 Helm 插件或自定义镜像

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)