DataFrame 分区到单个 Parquet 文件（每个分区）

2024-05-22

我想重新分区/合并我的数据，以便将其保存到每个分区的一个 Parquet 文件中。我还想使用 Spark SQL partitionBy API。所以我可以这样做：

df.coalesce(1)
    .write
    .partitionBy("entity", "year", "month", "day", "status")
    .mode(SaveMode.Append)
    .parquet(s"$location")

我已经对此进行了测试，但它似乎表现不佳。这是因为数据集中只有一个分区需要处理，所有文件的分区、压缩和保存都必须由一个 CPU 核心完成。

我可以在调用合并之前重写它以手动进行分区（例如使用具有不同分区值的过滤器）。

但是有没有更好的方法使用标准 Spark SQL API 来做到这一点？

我遇到了完全相同的问题，我找到了一种使用方法来做到这一点DataFrame.repartition()。使用时出现的问题coalesce(1)是你的并行度下降到 1，并且它在最好的情况下会很慢，在最坏的情况下会出错。增加这个数字也没有帮助——如果你这样做的话coalesce(10)您可以获得更多并行性，但最终每个分区有 10 个文件。

在不使用的情况下为每个分区获取一个文件coalesce(), use repartition()与您希望输出分区所依据的列相同。因此，对于您的情况，请执行以下操作：

import spark.implicits._
df
  .repartition($"entity", $"year", $"month", $"day", $"status")
  .write
  .partitionBy("entity", "year", "month", "day", "status")
  .mode(SaveMode.Append)
  .parquet(s"$location")

完成此操作后，每个输出分区都会获得一个镶木地板文件，而不是多个文件。

我在 Python 中对此进行了测试，但我认为在 Scala 中它应该是相同的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

DataFrame 分区到单个 Parquet 文件（每个分区）的相关文章

java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

我通过 pycharm 和 pyspark shell 分别运行 Spark 我已经堆积了这个错误 java lang OutOfMemoryError Java heap space at org apache spark api pyt
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
Spark - Scala - 用另一个数据帧中的查找值替换数据帧中的值

我正在 Databricks 上使用 Spark 编程语言是Scala 我有两个数据框主要数据框见截图 1 https i stack imgur com EShir png 查找数据框见截图3 https i stack imgur
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
Spark 物理计划和逻辑计划

我有两个问题在不添加任何额外代码来打印提交的 Spark 作业的逻辑和物理计划的情况下有没有办法查看集群上运行的 Spark 作业的物理和逻辑计划有没有办法动态修改集群上正在运行的 Spark 作业的执行计划以获得更好的性能请分享您
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
如何在spark Streaming中定期更新rdd

我的代码是这样的 sc SparkContext ssc StreamingContext sc 30 initRDD sc parallelize path to data lines ssc socketTextStream local
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Spark 执行器登录 YARN

我正在 Cloudera 集群上以 YARN 客户端模式启动分布式 Spark 应用程序一段时间后我在 Cloudera Manager 上看到一些错误一些执行者会断开连接并且这种情况会系统性地发生我想调试该问题但 YARN 未

随机推荐

使用 .Net 创建 CalDAV 服务

我想在我的应用程序中创建一个外部用户可以查看的日历 CalDAV 基本上是 WebDAV iCalendar 格式似乎得到了相对广泛的支持尽管某些客户端例如 Outlook 不太支持这种格式不过对我来说完全是新的我想外部发布事件我
哪些因素会导致 App Engine 请求中未跟踪时间的高度可变性？

我刚刚对我的应用程序进行了负载测试我注意到两个相同请求的延迟存在很大差异 3 秒与 30 秒当我挖掘痕迹时我发现了以下内容 Traced ms Untraced ms High latency Request 193 29948 Lo
CSS“内容”不起作用

我想通过 CSS 添加该段落的文本而不是在 HTML 中因为它会随着网站的响应能力而变化现在我无法让它工作我想知道CSS是否有问题另外这是唯一可以做到的方法使用纯 HTML 和 CSS 还是有另一种方法来定位文本并根据每个分辨
Google BigQuery，使用“unnest”函数时丢失了空行

StandardSQL WITH tableA AS SELECT T001 T002 T003 AS T id 1 5 AS L id UNION ALL SELECT T008 T009 AS T id NULL AS L id SEL
在 iPad 上显示 PDF 文档 - 颜色问题

我为 iPad 构建了一个 PDF 阅读器在将预览中的文档与模拟器和设备进行并排比较时我注意到一些颜色问题最好的形容就是颜色变得更加浓郁近距离使用的相似颜色之间的任何差异都会变得更加明显而所有颜色总体上看起来都更亮尽管大肆宣传将
在 VBScript 中，如何使用 mid 获取字符串并在“;”处分割字符串

所以我对 VBScript 比较陌生并且正在努力获取字符串并删除拆分它我目前有 id mid storeline id instr id storeline 1 我本质上想删除之后的任何代码例如 ID 12049302 Heigh
转换为父类型——Java

这实际上是一种验证有没有any将子对象转换为父类型有好处吗假设我有两个课程Parent and Child Child正在延伸Parent 有什么区别吗代码 Parent p new Child and Parent p Parent
在同一进程中混合 .NET 3.5 与 4/4.5 程序集

我想将基于 NET 3 5 WinForms 的应用程序迁移到最新的 NET 版本 4 5 该应用程序使用当前也基于 NET 3 5 的外部组件可以视为插件我想知道我们转换时使用哪些运行时核心库仅应用程序使用 NET 4 5 进行
适合 .Net 开发人员的 Grails/Roo

我目前正在学习 Grails 和 Roo 绝大多数培训材料都是针对新开发人员或现有 Java 开发人员有谁知道使用 Net C ASP Net Asp Net MVC 翻译现有开发经验的任何指南资源或技巧你做过很多 ASP MVC 吗
MySQL SELECT OpenCarts 数据库中的重复行

只是玩一下 OpenCart DB 看看我是否能学到一些东西如果我使用以下SELECT结果返回重复的行 SELECT DISTINCT p product id AS pid p model AS modelo SUBSTRING p m
对构建过程依赖于与另一个容器通信的应用程序进行 Docker 化

我有一个 Ruby on Rails 应用程序我正在尝试对其进行容器化以便可以使用 Docker 进行部署 version 3 4 services db image postgres web container name my rai
为什么在概念中使用 std::forward ？

我正在读有关约束的 cppreference 页面 http en cppreference com w cpp language constraints并注意到这个例子 example constraint from the standa
使用 OData 模型在间隔时间内更改表的单元格

我有这段代码我需要我的表格显示前 10 位患者并在 10 秒后显示接下来的 10 位患者而无需触摸任何按钮自动我正在寻找与此类似的东西 https embed plnkr co ioh85m5OtPmcvPHyl3Bg https
React Native Android 构建错误 MainActivity.java:29: 错误: 找不到符号

我在尝试编译我的 React Native android 应用程序时收到此错误 Android 应用程序无法解析 BuildConfig DEBUG app processDebugJavaRes UP TO DATE app compi
在模板中添加浮点数（django）

也许我遗漏了一些东西但我想添加一个浮点数如下所示 floatnumber add 3 4 过滤器添加我的结果所以我不想写我的过滤器但如果这是唯一的方法我将复制添加过滤器现在我正在这样做 def addf value arg Ad
UrlMapping 和文件扩展名

我有以下 url 映射 name a a file controller attachment action get 我想像这样使用它
在 JSPdf 中嵌入二进制文件

我在用着JsPDF https www npmjs com package jspdf将 html 内容导出到下载的 PDF 考虑以下示例该示例获取一些 HTML 内容并将其输出到下载的 PDF 文件使用JsPdf import Rea
如何将一行分成多行？

我有一个 CSV 文件看起来像这样 Column1 Column2 Column3 John Smith AA AH CA NI PB Reginald Higginsworth AA AH CA NI PB SN ZS 您会注意到其中有
在 tkinter Label 中漂亮地打印数据

我有以下示例数据 data 1 JohnCena Peter 24 74 2 James Peter 24 70 3 Cena Peter 14 64 14 John Mars 34 174 我想在 tkinter 输出窗口上以漂亮的表格方
DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity

DataFrame 分区到单个 Parquet 文件（每个分区）

DataFrame 分区到单个 Parquet 文件（每个分区） 的相关文章

随机推荐

热门标签

DataFrame 分区到单个 Parquet 文件（每个分区）的相关文章