如何有效地对Delta表进行分区？

2024-01-26

在将数据帧存储在增量表中时，为我的数据帧寻找有效的分区策略。

我当前的数据帧 1.5000.000 rowa 将数据从数据帧移动到增量表需要 3.5 小时。

为了寻找一种更有效的方法来完成此写作，我决定尝试表中的不同列作为分区列。我搜索了列的基数并选择了以下列。

column1 = 有 3 个不同的值
column2 = 有 7 个不同的值
第 3 列 = 有 26 个不同的值
第 4 列 = 有 73 个不同的值
第 5 列 = 有 143 个不同的值
第 6 列 = 有 246 个不同的值
第 7 列 = 有 543 个不同的值

集群：64GB，8核

在我的笔记本中使用以下代码

df.write.partitionBy("column_1").format("delta").mode("overwrite").save(partition_1)
..
df.write.partitionBy("column_7").format("delta").mode("overwrite").save(partition7)

因此，我想看看哪种分区策略会带来更好的结果：基数高的列、基数低的列或介于两者之间的列。令我惊讶的是，这并没有产生任何影响，因为所有这些都花费了几乎相同的时间，虽然有几分钟的差异，但都+3小时。

为什么我失败了？分区没有优点吗？

当您使用 Delta（Databricks 或 OSS Delta 1.2.x，更好的 2.0）时，通常您可能根本不需要使用分区，原因如下（不适用于 Parquet 或其他文件格式）：

达美支持数据跳跃 https://docs.databricks.com/delta/optimizations/file-mgmt.html#data-skipping允许只读取必要的文件，当您与优化 ZORDER BY https://docs.databricks.com/delta/optimizations/file-mgmt.html#z-ordering-multi-dimensional-clustering这将使相关数据彼此更加接近。
布隆过滤器 https://docs.databricks.com/delta/optimizations/bloom-filters.html允许更精细地跳过文件。

使用 Delta Lake 表分区的经验规则如下：

当它有利于查询时使用它，特别是当您对表执行 MERGE 时，因为它可以避免并行事务之间的冲突
当它有助于删除旧数据时（例如按日期分区）
当它真正有利于您的查询时。例如，您有每个国家/地区的数据，并且大多数查询将使用国家/地区作为条件的一部分。或者例如，当您按日期分区并根据时间查询数据时......

在所有情况下，不要对高基数列（数百个值）和具有太多分区列使用分区，因为在大多数情况下，这会导致创建读取效率较低的小文件（每个文件单独访问），另外它会增加驱动程序的负载，因为它需要保留每个文件的元数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

deltalake

如何有效地对Delta表进行分区？的相关文章

Simba ODBC 连接到增量表并使用 .Net C# 从增量格式表读取数据

我正在尝试使用 C 通过 simba odbc 驱动程序从增量格式表中读取数据增量格式表示例已按照中的说明下载并配置 simba odbchttps www simba com products Spark doc ODBC Insta
是否可以从 adf 连接到 databricks deltalake 表

我正在寻找一种能够从 ADF 和其他 Azure 服务如数据目录连接到 Databricks deltalake 表的方法我没有看到 ADF 数据源中列出的 databricks 数据存储关于类似的问题是否可以从 Azure 数据
Spark2.xx是否支持Delta Lake

所以我尝试使用 Delta Lake 写入 df concat write format delta mode overwrite save file it gives me this error java lang NoClassDefF
WriteStream 无法在 Delta 表中写入数据

我正在尝试使用以下代码从流路径连接 Streaming Json 文件 Schema1 customerId STRING orderId STRING products ARRAY
导入 Pyspark Delta Lake 模块时出现模块未找到错误

我正在使用 Delta Lake 运行 Pyspark 但是当我尝试导入 Delta 模块时我得到了一个ModuleNotFoundError No module named delta 这是在一台没有互联网连接的机器上所以我必须手动下
如何有效地对Delta表进行分区？

在将数据帧存储在增量表中时为我的数据帧寻找有效的分区策略我当前的数据帧 1 5000 000 rowa 将数据从数据帧移动到增量表需要 3 5 小时为了寻找一种更有效的方法来完成此写作我决定尝试表中的不同列作为分区列我搜索了列的基
EMR 和 S3 上的 Delta Lake (OSS) 表 - Vacuum 需要很长时间且没有作业

我正在使用开源版本将大量数据写入 Databricks Delta Lake 在 AWS EMR 上运行并以 S3 作为存储层我正在使用 EMRFS 为了提高性能我经常压缩和清理桌子如下所示 spark read format de
Databricks - 无法从 DataFrame 写入 Delta 位置

我想更改 Databricks Delta 表的列名称所以我做了以下事情 Read old table data val old data DF spark read format delta load dbfs mnt main sal
没有名为“delta.tables”的模块

我收到以下代码的错误请帮忙 from delta tables import ModuleNotFoundError No module named delta tables INFO SparkContext Invoking stop
Databricks 删除增量表？

如何在 Databricks 中删除增量表我在文档中找不到任何信息也许唯一的解决方案是使用 magic 命令或 dbutils 删除文件夹 delta 内的文件 fs rm r delta mytable EDIT 为了澄清起见我在这
Delta Lake 回滚

需要一种优雅的方式将 Delta Lake 回滚到以前的版本我目前的方法如下 import io delta tables val deltaTable DeltaTable forPath spark testFolder spark
在 Spark 2.4 中使用 Delta Lake 源时出错 (Hdinsight)

出现以下错误相同的代码在 Databricks 中有效但在 Hdinsight 中无效我还在类路径中添加了 delta 库和 hadoop azure 库 io delta delta core 2 11 0 5 0 org apac
Databricks - 不为空，但它不是 Delta 表

我在 Databricks 上运行查询 DROP TABLE IF EXISTS dublicates hotels CREATE TABLE IF NOT EXISTS dublicates hotels 我试图理解为什么我收到以下错误
delta Lake - 在 pyspark 中插入 sql 失败，并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias

Dataproc 集群是使用映像创建的2 0 x带有 Delta io 包io delta delta core 2 12 0 7 0 Spark版本是3 1 1 Spark shell 启动于 pyspark conf spark sql
Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
写入 Delta 表时检测到架构不匹配 - Azure Databricks

我尝试将 small radio json json 加载到 Delta Lake 表在此代码之后我将创建表我尝试创建 Delta 表但收到错误写入 Delta 表时检测到架构不匹配可能与分区有关events write form
如何在Zeppelin笔记本和pyspark中导入Delta Lake模块？

我正在尝试在 Zeppelin 笔记本中使用 Delta Lake 和 pyspark 但似乎无法成功导入模块例如 pyspark from delta tables import 它失败并出现以下错误 ModuleNotFoundErr
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat

随机推荐

FFmpeg 的 avcodec_decode_audio3 返回 -1

我在android上使用FFmpeg来解码mp3 我在配置中设置了所有解码器启用并正确制作了 so 文件这是为配置文件添加参数的 sh NDK android ndk r5b PLATFORM NDK platforms android
如何最小化 R 包的安装大小

在我的工作场所我们正在为不同版本的 R 安装许多库所需的大小正在迅速增加我可以做什么来尽可能减少每次安装我知道 no docs 并且我需要 with keep source EDIT 这是对我的设置的快速研究我将我的图书馆复制到
详细了解 openCV aruco 标记检测/姿态估计：亚像素精度

我目前正在研究openCV的 aruco 模块特别关注ArUco标记和AprilTags的poseEstimation 在研究子像素精度时我遇到了一种奇怪的行为如下代码所示如果我确实提供了完美校准例如 cx cy 等于图像中心
在外部登录/注册 ASP.NET Web API 2.0 和 Identity 期间从 Facebook 检索其他配置文件信息

似乎有很多关于如何使用 ASP NET Identity 和 MVC 客户端从 Facebook 配置文件获取附加信息的文档但我似乎找不到任何关于如何从 Web API 控制器访问附加信息声明的信息我的 Startup Auth cs
为什么在 forEach 循环中不会追加列表项？

我有一个简单的 forEach 循环其中我尝试将列表项附加到无序列表中但是当我运行脚本时我只看到添加了一个列表项谁能解释为什么会发生这种情况 JS let bookElement document getElementsByCla
如何在C#中使用文本框搜索列表视图的项目

我有一个列表视图名称listView1 它包含计算机ID和它们的一些信息所以我想做的是我有一个文本框名称过滤框当我写东西时它会过滤它它工作得很好我的问题是它只是寻找第一列不是其他列例如 PCNAME USER MODEL AAAA
知道类中的所有变量是否为空的最佳方法是什么？

这意味着类已初始化但变量尚未设置示例类 public class User String id null String name null public String getId return id public void setId
Groovy 不在集合中

在 Groovy 中检查列表是否包含某些内容的惯用方法是使用in if b in a b c 但是如何很好地检查某些内容是否不在集合中呢 if g in a b c 使用逻辑看起来并不混乱不经意的一瞥是隐藏的在 Groovy 中是否有更
如何从 ion-searchbar 获取输入？

这是超级简单的问题但我似乎无法弄清楚这一点是的我已经阅读了文档我正在尝试获取用户输入的内容ion searchbar 在 Ionic v4 中在他们按搜索并放入 const let 后麻哈HTML
带有 std::thread 和 std::chrono 的基本计时器

我正在尝试使用经典方法来实现一个基本计时器 start 和 stop 我将 c 11 与 std thread 和 std chrono 一起使用启动方法创建一个在给定间隔时间内休眠的新线程然后执行给定的 std function 当
设置 UIView 的背景颜色会增加内存使用量

我正在将许多 UIView 加载到 UIScrollView 上并试图找出它们使用这么多内存的原因经过使用 Instruments 的排除过程后我发现设置视图的背景颜色会增加 4 倍的内存使用量如果我不设置背景颜色内存使用量约为
上传到firebase时如何防止重复图像？

当我想将图像上传到 firebase 实时数据库和存储时遇到一些问题在实时数据库中我的图像对象默认有一张图像并且当我上传其他图像时我不想覆盖图像所以我使用了传播运算符 SO 当我选择时一张图片并单击上传它们它可以工作并保存没有重
更新列表列表中的属性

问题是如何在不循环的情况下更新 allItems 内的 ItemCount 字段例如使用 Linq 例如如果 Index 0 我想将 ItemCount 设置为 ItemCount 5 您可以看到下面的代码我有以下课程 public
尝试使用 LEFT OUTER JOIN 优化 MySQL 查询

我有这个查询它工作正常只是需要很长时间 7 秒 jobs 表中有 40k 条记录 wq 表中有 700k 条记录我尝试了 EXPLAIN 它说它查看作业表中的所有记录并且不使用任何索引我不知道如何告诉 MySQL 在查找 wq 表
淘汰赛验证插件自定义错误消息

根据以下内容我到底如何设置回调以显示自定义错误消息而不是默认消息 ko validation rules exampleAsync async true the flag that says Hey I m Async validator
Pyaudio：将输入连接到输出时出错

我正在 Intel Edison 主板上尝试 pyaudio 但它在内置测试中失败了单独录音和播放在我的设置中工作得很好但如果我尝试将输入连接到输出则会出现错误文件 wire full py 第 33 行位于 data strea
将子组件的配置传递给父组件

通常要定义网格类型我会执行以下操作 Ext define MyApp view MyGrid extend Ext grid Panel alias widget myGrid store MyStore columns 然后我通过其
如何在iOS App Store Sandbox中测试自动续订订阅的“续订”组件？

Folks 我正在尝试验证自动续订订阅是否确实在沙盒环境中续订首先沙盒中的自动续订订阅似乎只有 5 分钟的有效期说得通我预计如果我等待五分钟然后再拨打 https sandbox itunes apple com verifyRe
NSString 为空

如何测试 NSString 是否为空或全部空白或为零通过单个方法调用你可以尝试这样的事情 implementation NSString JRAdditions BOOL isStringEmpty NSString string i
如何有效地对Delta表进行分区？

在将数据帧存储在增量表中时为我的数据帧寻找有效的分区策略我当前的数据帧 1 5000 000 rowa 将数据从数据帧移动到增量表需要 3 5 小时为了寻找一种更有效的方法来完成此写作我决定尝试表中的不同列作为分区列我搜索了列的基

如何有效地对Delta表进行分区？

如何有效地对Delta表进行分区？ 的相关文章

随机推荐

热门标签

如何有效地对Delta表进行分区？的相关文章