Spark SQL无法完成大量分片的Parquet数据写入

2023-11-22

我正在尝试使用 Apache Spark SQL 将 S3 中的 json 日志数据 etl 到 S3 上的 Parquet 文件中。我的代码基本上是：

import org.apache.spark._
val sqlContext = sql.SQLContext(sc)
val data = sqlContext.jsonFile("s3n://...", 10e-6)
data.saveAsParquetFile("s3n://...")

当我有多达 2000 个分区时，此代码可以工作，而当我有 5000 个或更多分区时，无论数据量有多大，该代码都会失败。通常情况下，我们可以将分区合并到可接受的数量，但这是一个非常大的数据集，在 2000 个分区时我遇到了这里描述的问题question

14/10/10 00:34:32 INFO scheduler.DAGScheduler: Stage 1 (runJob at ParquetTableOperations.scala:318) finished in 759.274 s
14/10/10 00:34:32 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have all completed, from pool 
14/10/10 00:34:32 INFO spark.SparkContext: Job finished: runJob at ParquetTableOperations.scala:318, took 759.469302077 s
14/10/10 00:34:34 WARN hadoop.ParquetOutputCommitter: could not write summary file for ...
java.io.IOException: Could not read footer: java.lang.NullPointerException
        at parquet.hadoop.ParquetFileReader.readAllFootersInParallel(ParquetFileReader.java:190)
        at parquet.hadoop.ParquetFileReader.readAllFootersInParallel(ParquetFileReader.java:203)
        at parquet.hadoop.ParquetOutputCommitter.commitJob(ParquetOutputCommitter.java:49)
        at org.apache.spark.sql.parquet.InsertIntoParquetTable.saveAsHadoopFile(ParquetTableOperations.scala:319)
        at org.apache.spark.sql.parquet.InsertIntoParquetTable.execute(ParquetTableOperations.scala:246)
        at org.apache.spark.sql.SQLContext$QueryExecution.toRdd$lzycompute(SQLContext.scala:409)
        at org.apache.spark.sql.SQLContext$QueryExecution.toRdd(SQLContext.scala:409)
        at org.apache.spark.sql.SchemaRDDLike$class.saveAsParquetFile(SchemaRDDLike.scala:77)
        at org.apache.spark.sql.SchemaRDD.saveAsParquetFile(SchemaRDD.scala:103)
        at $line37.$read$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:39)
        at $line37.$read$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:44)
        at $line37.$read$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:46)
        at $line37.$read$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:48)
        at $line37.$read$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:50)
        at $line37.$read$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:52)
        at $line37.$read$$iwC$$iwC$$iwC$$iwC.<init>(<console>:54)
        at $line37.$read$$iwC$$iwC$$iwC.<init>(<console>:56)
        at $line37.$read$$iwC$$iwC.<init>(<console>:58)
        at $line37.$read$$iwC.<init>(<console>:60)
        at $line37.$read.<init>(<console>:62)
        at $line37.$read$.<init>(<console>:66)
        at $line37.$read$.<clinit>(<console>)
        at $line37.$eval$.<init>(<console>:7)
        at $line37.$eval$.<clinit>(<console>)
        at $line37.$eval.$print(<console>)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at org.apache.spark.repl.SparkIMain$ReadEvalPrint.call(SparkIMain.scala:789)
        at org.apache.spark.repl.SparkIMain$Request.loadAndRun(SparkIMain.scala:1062)
        at org.apache.spark.repl.SparkIMain.loadAndRunReq$1(SparkIMain.scala:615)
        at org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:646)
        at org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:610)
        at org.apache.spark.repl.SparkILoop.reallyInterpret$1(SparkILoop.scala:814)
        at org.apache.spark.repl.SparkILoop.interpretStartingWith(SparkILoop.scala:859)
        at org.apache.spark.repl.SparkILoop.command(SparkILoop.scala:771)
        at org.apache.spark.repl.SparkILoop.processLine$1(SparkILoop.scala:616)
        at org.apache.spark.repl.SparkILoop.innerLoop$1(SparkILoop.scala:624)
        at org.apache.spark.repl.SparkILoop.loop(SparkILoop.scala:629)
        at org.apache.spark.repl.SparkILoop$$anonfun$process$1.apply$mcZ$sp(SparkILoop.scala:954)
        at org.apache.spark.repl.SparkILoop$$anonfun$process$1.apply(SparkILoop.scala:902)
        at org.apache.spark.repl.SparkILoop$$anonfun$process$1.apply(SparkILoop.scala:902)
        at scala.tools.nsc.util.ScalaClassLoader$.savingContextLoader(ScalaClassLoader.scala:135)
        at org.apache.spark.repl.SparkILoop.process(SparkILoop.scala:902)
        at org.apache.spark.repl.SparkILoop.process(SparkILoop.scala:997)
        at org.apache.spark.repl.Main$.main(Main.scala:31)
        at org.apache.spark.repl.Main.main(Main.scala)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at org.apache.spark.deploy.SparkSubmit$.launch(SparkSubmit.scala:328)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:75)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.NullPointerException
        at org.apache.hadoop.fs.s3native.NativeS3FileSystem$NativeS3FsInputStream.close(NativeS3FileSystem.java:106)
        at java.io.BufferedInputStream.close(BufferedInputStream.java:472)
        at java.io.FilterInputStream.close(FilterInputStream.java:181)
        at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:298)
        at parquet.hadoop.ParquetFileReader$2.call(ParquetFileReader.java:180)
        at parquet.hadoop.ParquetFileReader$2.call(ParquetFileReader.java:176)
        at java.util.concurrent.FutureTask.run(FutureTask.java:262)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
        at java.lang.Thread.run(Thread.java:745)

我在 ec2 中的 R3.xlarge 上的 Spark-1.1.0 上运行此程序。我正在使用 Spark-shell 控制台来运行上面的代码。我能够对data之后是SchemaRDD对象，所以看起来不是资源问题。还可以读取和查询生成的 Parquet 文件，只是由于缺少摘要文件而需要很长时间。

尝试将此属性设置为 false ：

sparkContext.hadoopConfiguration().set("parquet.enable.summary-metadata", "false");

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark SQL无法完成大量分片的Parquet数据写入的相关文章

Hive 聚集在多个列上

据我所知当配置单元表聚集在一列上时它会执行该分桶列的哈希函数然后将该行数据放入其中一个桶中每个桶都有一个文件即如果有 32 个桶那么 hdfs 中就有 32 个文件将 clustered by 放在多个列上意味着什么例如假
Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
伪模式下没有名称节点错误

我是hadoop新手正处于学习阶段根据 Hadoop Definitve 指南我已将 hadoop 设置为伪分布式模式一切正常昨天我什至能够执行第三章中的所有示例今天当我重新启动我的unix并尝试运行start dfs sh然
如何使用 symfony / gauferette / VichUploaderBundle 将文件上传到 Google Cloud Storage

早上好我正在上传我的文件locally通过VichUploaderBundle 每件事都很完美现在我不想再在本地存储我的文件我想将它们存储在谷歌云存储我找到KnpGaufrette捆绑包可用于在云中存储文件那么有没有关于如何配置
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
总分配超过堆内存的 95.00%（960,285,889 字节）- pyspark 错误

我用 python 2 7 编写了一个脚本使用 pyspark 将 csv 转换为 parquet 和其他内容当我在小数据上运行脚本时它运行良好但是当我在更大的数据 250GB 上运行脚本时我遇到了以下错误总分配超过堆内存的 9
如何使用 aws-cli 访问 Google Cloud Storage 存储桶

我可以访问 aws 和 Google Cloud Platform 是否可以执行以下操作使用 aws cli 列出 Google Cloud Storage 存储桶使用 aws cli 将 CSV 文件放入 Google Cloud S
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒”。

我编写了一个 MapReduce 作业来从数据集中提取一些信息该数据集是用户对电影的评分用户数量约25万电影数量约30万地图的输出是
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
无法更新 AWS S3 CORS 策略

我需要更改我的 AWS S3 存储桶 CORS 策略才能将我的 ReactJS 文件上传到 AWS S3 但我不断收到此 API 响应预期 params CORSConfiguration CORSRules 是一个数组我现在很茫然有
如何以 Rails 形式将图像从

正如标题中所述我正在尝试使用 Rails 的 Active Storage 从嵌套在 Rails 表单中的元素将图像上传到我的 S3 存储桶到目前为止我已经能够使用使用 Active Storage 上传图像这User class h
PHPUnit - 模拟 S3Client 无法正常工作

库 aws aws sdk php 2 PHP 版本 PHP 5 4 24 cli 作曲家 json require php gt 5 3 1 aws aws sdk php 2 require dev phpunit phpunit 4

随机推荐

如何从 CMD 运行 Pip 命令

据我了解 Python 2 7 9 附带安装了 Pip 但是当我尝试从 CMD Windows 执行 Pip 命令时出现以下错误 pip is not recognized as an internal or external comma
如何在Android Studio中指定JDK版本？

Android Studio 给我一个 Gradle 构建错误如下所示 Error 3 22 compileSdkVersion android 22 requires compiling with JDK 7 现在它给了我这些可点击的提
如何正确处理Python中的循环模块依赖？

尝试找到一种良好且正确的模式来处理 Python 中的循环模块依赖关系通常解决方案是删除它通过重构然而在这种特殊情况下我们确实希望拥有需要循环导入的功能 EDIT 根据下面的答案此类问题通常的攻击角度是重构然而为了这个问题
Mac 上的 PDO MySQL 驱动程序

我有一台大约一年前安装的自定义 PHP 5 的 Mac 我记得我花了整个星期天的时间编译了大约 20 次才能把它做好我拥有的 MySQL 来自熵并且是预编译的现在我需要让 PDO 与 MySQL 驱动程序一起工作但驱动程序尚未安装
在c二进制中，测试数字是否在范围内

这是我无法解开的谜题的一部分该函数接受三个输入第一个是 int 第二个是下界第三个是上限我需要测试第一个数字是否在下限和上限内包括下限和上限如果在范围内则返回1 否则返回0 问题是我只能使用 lt lt gt gt 操作并且只
linux、C++、xft：如何使用它？

我尝试使用 Xft tutorial 好吧让他们称之为教程看起来像是在朝鲜营地写的我也发现了这个one 那么让我尝试一步一步地进行 g XftTest cc lX11 lXft pkg config cflags freetype2
为什么我会收到此 WCF 错误消息？

当我调用 WCF 服务时出现以下错误我在这里缺少什么 System String with data contract name ArrayOfstring http schemas microsoft com 2003 10 Seri
DRF 光标分页示例

我正在尝试设置使用 DRF 进行光标分页获取交易记录列表按创建日期排序我不知道如何执行初始请求因为我在那个阶段还不知道光标令人惊讶的是我找不到这方面的例子另外有没有办法使用 CursorPagination 设置每个请求的页面
SwiftUI @Binding 不刷新视图

我有一个简单的主详细信息界面其中详细信息视图修改数组中的项目使用下面的代码模型已正确更新但 SwiftUI 不会刷新视图以反映更改 Model struct ProduceItem Identifiable let id UUID
插入时保持 std 向量/列表排序，或全部排序

假设我的向量列表中有 30000 个对象这是我一一补充的我需要将它们分类一次排序如 std sort 更快还是在我一一添加对象时保持向量列表排序更快矢量列表以后不会被修改当你在一个接一个地插入元素的同时保持向量列表排序时
如何在Flutter中实现持久秒表？

我正在 flutter 中实现一个计时器这是应用程序的结构页面 A 包含一些列表用户单击这些列表并将其带到计时器页面页面 B 格式运行计时器我能够正确运行计时器秒表但是当我按页面 B 上的后退按钮时我会在处理错误后调用 s
Chrome 说：资源解释为样式表，但使用 MIME 类型 application/xml 进行传输

我有一个使用 XSL 文件设计样式的 XML 文件在 Firefox 中打开 XML 文件时我没有遇到任何问题尽管奇怪的是有时它只会在我点击重新加载后才会显示但在 Chrome Chromium 中我收到错误消息 Resour
SQL Server 日期格式函数

SELECT CONVERT VARCHAR 10 GETDATE 105 此查询返回 DD MM YYYY 中的日期格式为 varchar 我需要在 sql server 中的日期时间数据类型中使用相同的格式请帮助我在 SQL Se
为什么 lambda 表达式没有被“interned”？

字符串是引用类型但它们是不可变的这使他们能够interned由编译器只要出现相同的字符串文字就可能引用相同的对象委托也是不可变的引用类型使用以下方法向多播委托添加方法运算符构成任务这不是可变性并且就像字符串一样有一种
在 C# 中使用内存映射文件时是否可以避免数据副本？

我对内存映射文件在 C 中如何工作的理解是每个数据请求都会产生一个副本例如如果您有一个作为文件持久保存的大型数据结构则使用内存映射文件会导致将实际文件的内存映射到 RAM 中并在从文件中读取后将其副本驻留在 GC 堆中我假设这是
Spark SubQuery 扫描整个分区

我有一个按日期字段分区的配置单元表我想编写一个查询来从最新最大分区获取数据 spark sql select field from table where date of 2019 06 23 explain True vs sp
从字符串 JavaScript 中提取数字

有谁知道在 JavaScript 中从字符串中提取数字的方法吗 Example 1 banana 1 pineapple 3 oranges 我的目的是将结果保存在数组 JSON 或其他内容中 Result 1 1 3 var result
#define TRUE !FALSE 与 #define TRUE 1

撇开自 c99 年以来的事实不谈stdbool h在定义宏来处理布尔类型时已经存在C以下有什么区别吗 define FALSE 0 define TRUE 1 Option 1 define TRUE FALSE Option 2 从这里的
JPA 使用父级合并但创建子级时如何获取生成的 id/对象？

我有一个先前已被保留并具有 OneToMany与另一个实体的关系为了添加新实体我只需在托管对象中添加新实体并使用cascadeType ALL坚持改变有没有一种方法可以获取新创建的对象的 id 或获取与合并一起使用的原始非托管对象
Spark SQL无法完成大量分片的Parquet数据写入

我正在尝试使用 Apache Spark SQL 将 S3 中的 json 日志数据 etl 到 S3 上的 Parquet 文件中我的代码基本上是 import org apache spark val sqlContext sql S

Spark SQL无法完成大量分片的Parquet数据写入

Spark SQL无法完成大量分片的Parquet数据写入 的相关文章

随机推荐

热门标签

Spark SQL无法完成大量分片的Parquet数据写入的相关文章