Spark 2.2 无法将 df 写入 parquet

2024-05-16

我正在构建一个聚类算法，我需要存储模型以供将来加载。我有一个具有以下架构的数据框：

val schema = new StructType()
        .add(StructField("uniqueId", LongType))
        .add(StructField("timestamp", LongType))
        .add(StructField("pt", ArrayType(DoubleType)))
        .add(StructField("norm", DoubleType))
        .add(StructField("kNN", ArrayType(LongType)))
        .add(StructField("kDist", DoubleType))
        .add(StructField("lrd", DoubleType))
        .add(StructField("lof", DoubleType))
        .add(StructField("isClusterCenter", BooleanType))
        .add(StructField("clusterSize", DoubleType))
        .add(StructField("clusterId", IntegerType))

我在用着parquet()写入镶木地板文件的方法：

df.write.mode(SaveMode.Overwrite).parquet(Loader.dataPath("/tmp/milof/model"))

我已经打印了数据框，看起来不错

+--------+-------------+--------------------+------------------+------------+-------+--------------------+-------------------+---------------+-----------+---------+
|uniqueId|    timestamp|                  pt|              norm|         kNN|  kDist|                 lrd|                lof|isClusterCenter|clusterSize|clusterId|
+--------+-------------+--------------------+------------------+------------+-------+--------------------+-------------------+---------------+-----------+---------+
|       1|1516459162000|[14.0, 78.0, 52.0...|219.61784991206886|[2, 3, 5, 4]|54363.0|4.950813666226044E-5| 0.3926170684395501|          false|        5.0|        1|

但是当我到达上面的行时，我收到以下错误：

Exception in thread "main" org.apache.spark.SparkException: Job aborted.
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply$mcV$sp(FileFormatWriter.scala:213)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply(FileFormatWriter.scala:166)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply(FileFormatWriter.scala:166)
    at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:65)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:166)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:145)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:58)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:56)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala:74)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:117)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:117)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:138)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:135)
    at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:116)
    at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:92)
    at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:92)
    at org.apache.spark.sql.execution.datasources.DataSource.writeInFileFormat(DataSource.scala:435)
    at org.apache.spark.sql.execution.datasources.DataSource.write(DataSource.scala:471)
    at org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:50)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:58)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:56)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala:74)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:117)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:117)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:138)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:135)
    at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:116)
    at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:92)
    at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:92)
    at org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:609)
    at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:233)
    at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:217)
    at org.apache.spark.sql.DataFrameWriter.parquet(DataFrameWriter.scala:508)
    at it.gagliano.giuseppe.spark.clustering.milof.MiLOFModel$SaveLoadV1_0$.save(MiLOFModel.scala:593)
    at it.gagliano.giuseppe.spark.clustering.milof.MiLOFModel.save(MiLOFModel.scala:364)
    at it.gagliano.giuseppe.spark.clustering.milof.KafkaTrainer$.main(KafkaTrainer.scala:91)
    at it.gagliano.giuseppe.spark.clustering.milof.KafkaTrainer.main(KafkaTrainer.scala)
Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 60.0 failed 1 times, most recent failure: Lost task 0.0 in stage 60.0 (TID 77, localhost, executor driver): org.apache.spark.SparkException: Task failed while writing rows
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$.org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask(FileFormatWriter.scala:270)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1$$anonfun$apply$mcV$sp$1.apply(FileFormatWriter.scala:189)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1$$anonfun$apply$mcV$sp$1.apply(FileFormatWriter.scala:188)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
    at org.apache.spark.scheduler.Task.run(Task.scala:108)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:338)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)
    at java.lang.Thread.run(Unknown Source)
Caused by: java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/JsonInput;Z)Lorg/json4s/JsonAST$JValue;
    at org.apache.spark.sql.types.DataType$.fromJson(DataType.scala:108)
    at org.apache.spark.sql.types.StructType$$anonfun$6.apply(StructType.scala:414)
    at org.apache.spark.sql.types.StructType$$anonfun$6.apply(StructType.scala:414)
    at scala.util.Try$.apply(Try.scala:192)
    at org.apache.spark.sql.types.StructType$.fromString(StructType.scala:414)
    at org.apache.spark.sql.execution.datasources.parquet.ParquetWriteSupport.init(ParquetWriteSupport.scala:80)
    at org.apache.parquet.hadoop.ParquetOutputFormat.getRecordWriter(ParquetOutputFormat.java:341)
    at org.apache.parquet.hadoop.ParquetOutputFormat.getRecordWriter(ParquetOutputFormat.java:302)
    at org.apache.spark.sql.execution.datasources.parquet.ParquetOutputWriter.<init>(ParquetOutputWriter.scala:37)
    at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$$anon$1.newInstance(ParquetFileFormat.scala:159)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$SingleDirectoryWriteTask.newOutputWriter(FileFormatWriter.scala:303)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$SingleDirectoryWriteTask.execute(FileFormatWriter.scala:312)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask$3.apply(FileFormatWriter.scala:256)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask$3.apply(FileFormatWriter.scala:254)
    at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1371)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$.org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask(FileFormatWriter.scala:259)
    ... 8 more

有人能解释一下这是什么意思吗？我怀疑 DataFrameWriter 不支持某些类型，但我在互联网上没有找到任何与此相关的信息。任何建议将不胜感激。谢谢。

Versions

Spark 2.2.1
Scala 2.11.11
Json4S 'org.json4s', name: 'json4s-jackson_2.11', version: '3.6.0-M2'

切换到以前版本的 json4s 依赖项有效，我使用了以下内容

<dependency>
    <groupId>org.json4s</groupId>
    <artifactId>json4s-jackson_2.11</artifactId>
    <version>3.2.11</version>
</dependency>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

parquet

Spark 2.2 无法将 df 写入 parquet 的相关文章

从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
创建自定义 scala 集合，其中映射默认返回自定义集合？

特质TraversableLike A Repr 允许人们在其中进行收藏some函数将返回一个Repr 而其他人则继续返回类型参数That在功能上有没有办法定义一个CustomCollection A 其中函数如map 其他的默认That
Scala 将递归有界类型参数（F 界）转换为类型成员

我将如何转换 trait Foo A lt Foo A 给类型成员也就是说我想要以下内容 trait Foo type A lt Foo type A 但我遇到了困难因为名称 A 已在类型细化中使用这个问题是类似的并衍生自通过类
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
SBT 对 Scala 类型感到困惑

SBT 抛出以下错误 value split is not a member of String String error filter arg gt arg split delimiter length gt 2 对于以下代码块 impl
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
Scala：“递归值...需要类型”，但我只使用 Java 类型

object Rec extends App val outStream new java io ByteArrayOutputStream val out new java io PrintStream new java io Buffe
将 DOCTYPE 添加到 Scala XML 的最简单方法？

我怎样才能在 Scala XML 中制作这个最小的 HTML5 p p 当然在 Scala 中制作类似 HTML 的 XML 很简单 gt val html p p html scala xml Elem p p 但是我怎样才能注入DO
Jack（Java Android 编译器套件）将如何影响 Scala 开发人员

现在随着公告Jack https source android com source jack html谷歌阐明了 Java 与 Android 相关的可预见的未来但这对 Scala 和其他基于 JVM 的语言开发人员有何影响尤其 Sc
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
需要澄清令人困惑的 Http4s 消息类型 `Response[F]` / `Request[F]`

我很难理解为什么Request and Response参数化为F 类似的东西是猫效应数据类型资源从文档中 https typelevel org cats effect docs std resource https typelevel
Scala apply 方法调用，因为括号与隐式参数冲突

Cay Horstmann 的书 Scala for the Impressive 中有一段关于 apply 方法的注释有时表示法会与另一个 Scala 功能发生冲突隐式参数例如表达式 Bonjour sorted 3 产生错误
Map 和 Set 的实际类（不是抽象类，也不是特征类）是什么？

在 Scala 中映射和集合文字可以通过以下方式创建 val m Map 1 gt a 以及引用的类型m字面意思都是Map Int String 然而 scala文档表明Map实际上是一个特征具有需要实现才能实例化的抽象成员 scala
在 AKKA 中，对主管调用 shutdown 是否会停止其监督的所有参与者？

假设我有一位主管连接了 2 位演员当我的应用程序关闭时我想优雅地关闭这些参与者调用supervisor shutdown 是否会停止所有参与者还是我仍然需要手动停止我的参与者 gracias 阻止主管 https github co
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
如何从DataFrame中获取最后一行？

我有一个DataFrame 该DataFrame有两列 value 和 timestamp timestmp 是有序的我想获取DataFrame的最后一行我该怎么办这是我的输入 value timestamp 1 1 4 2 3 3

随机推荐

如何使用UpdateView？

我有两个可能相关的 UpdateView 问题首先它不是更新用户而是创建一个新的用户对象其次我无法限制表单中显示的字段这是我的观点 py class RegistrationView FormView form class Reg
应用程序在尝试绑定隔离存储映像时崩溃

在我的应用程序中我使用下面提到的辅助方法将我的独立存储图像绑定到图像控件我从链接获得了这个辅助方法将存储在独立存储中的图像绑定到 Windows Phone 中的图像控件 https stackoverflow com questio
ASP.NET IIS 7.5 HTTP 500.21 错误

我在设置本地站点时遇到问题该项目使用 ASP NET Framework 4 0 我的 DefaultAppPool 使用 4 0 并集成托管管道模式这是我得到的错误 HTTP Error 500 21 Internal Server
如何使用 Windows.Web.Http 下载和存储图像？

如何使用 Windows Web Http 从 Internet 下载 jpeg 图像并将其存储在 Windows 应用商店应用程序中我面临的问题是我不知道必须对图像使用什么 Get Async 和 Write Async 方法文件与字
是否使用 delegate()

有没有人能够解释为什么使用以下函数 potato delegate frenchFry click function e do something 优于 potato bind click function e if e target ha
使用 facebook 共享动态更新元标签 - Angular 6

我需要动态更新元标记如 og title og description 和 og image 并在 facebook 上共享相同的内容我已经尝试了所有方法但没有任何效果首先我尝试使用 javascript 设置元标记如下所示 v
如何在jasper报告中显示少于5行的数据

我创建了一个报告表我已将其设置为每页显示 5 行数据现在的问题是当数据少于5行时表格将不会出现我已经把 V REPORT COUNT 5 0在每个部分如何修改此公式以便即使少于 5 行也能显示数据行抱歉由于工作繁忙无法提
在 Mac OS X 上构建 Linux 内核

我正在做一个修改Linux内核的项目我有一台桌面 Linux 机器在上面构建内核没有问题不过我要去旅行我想在途中工作我只有一台 MacBook 当我尝试构建 Linux 内核时它抱怨说elf h was not found 我
Serializer.is_valid() 虽然 `required=False` 失败 - Django REST Framework

我有一个像这样的序列化器 class DataSetColumnSerializer serializers ModelSerializer custom target serializers PrimaryKeyRelatedField
Android浏览器上的Web应用程序宽度问题

所以到目前为止我只在 Android 浏览器上遇到过这个问题基本上我的网站几乎一直运行良好而且我还没有在 Dolphin Opera 或 Skyfire 上看到这个问题但偶尔当我从手机主屏幕之一上的书签重新打开 Android 浏览器
Apple Developer 应用程序门户不再可以生成新的 Bundle Seed ID

iOS 开发者门户中的新界面不再为您的应用程序 ID 提供生成新的按钮取而代之的是使用团队 ID 这将导致使用相同的种子 ID 任何人都知道为什么要进行更改以及您应该如何使用新的捆绑包种子 ID 随意补一些不再可能生成新的种子 I
测试 Python 脚本

如何使用 doctest unittest nose 等测试框架测试 Python 脚本的 STDOUT 输出例如假设运行我的脚本 todo py list 应该返回取出垃圾我读过有人将脚本的 STDOUT 打印部分与生成要打印的输
是否可以从外部文件运行 openoffice 宏？

我想从外部文件运行 OpenOffice 宏喜欢 vlad leo soffice macro home vlad q vbs 并不是真正的答案只是一个评论以便提出这个问题并希望得到答案这可能与必须显式设置宏的权限有关例如编辑
自定义 SVG 未加载到我的图像标签中

目前我正在尝试将自定义 svg 组件加载到图像标签内但由于某种原因我无法看到地图组件内的 svg 图像我的自定义 SVG 文件如下所示我在 SVG 中加载另一个图像
仅当重复行与模式匹配时才删除它们

这个问题 https stackoverflow com questions 1444406 how can i delete duplicate lines in a file in unix有一个很好的答案说你可以使用awk seen
X11 等待并获取剪贴板文本

我必须监视 X11 剪贴板目前我每 5 秒请求一次剪贴板选择然后对从剪贴板返回的文本进行哈希处理并将其与上次检查的哈希计算结果进行比较如果哈希值不相同我会分析文本内容并做一些事情我不喜欢我的方法我来自Windows 使用wi
正则表达式替换混合数字+字符串

我想删除所有包含数字的单词示例 LW23 London W98 String 从上面的字符串中我唯一想保留的是 London String 这可以用正则表达式来完成吗我目前正在使用 Python 但 PHP 代码也很好 Thanks E
实体框架服务层更新 POCO

我正在使用Service Layer gt Repository gt Entity Framework Code First w POCO objects方法我在更新实体方面遇到了困难我正在使用 AutoMapper 将域对象映射到视
从单个 javascript 函数向两个不同的 PHP 脚本发送两个 Ajax 请求

是否可以同时向两个或多个 Php 脚本发送 Ajax 请求我知道这可以串行实现从 1 获取响应然后从另一个获取响应但我想知道是否可以同时实现请协助我使用以下代码 function calShowUpload if http rea
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim

Spark 2.2 无法将 df 写入 parquet

Spark 2.2 无法将 df 写入 parquet 的相关文章

随机推荐

热门标签