从 Spark 2.X 开始，无法使用 scala.None 值创建 org.apache.spark.sql.Row

2024-01-11

由于 Spark 2.X 无法使用 scala.None 值创建 org.apache.spark.sql.Row （Spark 1.6.X 是可能的）

Caused by: java.lang.RuntimeException: Error while encoding: java.lang.RuntimeException: scala.None$ is not a valid external type for schema of string

可重现的例子：

import org.apache.spark.sql.types._
import org.apache.spark.sql.Row

spark.createDataFrame(
  sc.parallelize(Seq(Row(None))),
  StructType(Seq(StructField("v", StringType, true)))
).first

Gist: https://gist.github.com/AleksandrPavlenko/bef1c34458883730cc319b2e7378c8c6 https://gist.github.com/AleksandrPavlenko/bef1c34458883730cc319b2e7378c8c6

看起来它被改变了SPARK-15657 https://issues.apache.org/jira/browse/SPARK-15657（不确定，仍在尝试证明）

这是预期的行为，如中所述SPARK-19056 https://issues.apache.org/jira/browse/SPARK-19056 (行编码器应该接受可选类型):

这是故意的。允许Option in Row从未被记录下来，并且当我们将编码器框架应用于所有类型化操作时会带来很多麻烦。从Spark 2.0开始，请使用Dataset用于类型化操作/自定义对象

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

从 Spark 2.X 开始，无法使用 scala.None 值创建 org.apache.spark.sql.Row 的相关文章

Apache Spark 从 S3 读取异常：内容长度分隔消息正文过早结束（预期：2,250,236；收到：16,360）

我想从 S3 资源创建 Apache Spark DataFrame 我在 AWS 和 IBM S3 Clout 对象存储上尝试过都失败了 org apache spark util TaskCompletionListenerExcep
警告 ReliableDeliverySupervisor：与远程系统的关联失败，地址现已门控 [5000] 毫秒。原因：[已解除关联]

我正在 aws Spark 上运行以下句子 val sqlContext new org apache spark sql SQLContext sc import sqlContext implicits case class Wiki
如何在spark中将矩阵转换为RDD[Vector]

如何转换自org apache spark mllib linalg Matrix to RDD org apache spark mllib linalg Vector 在火花该矩阵是由 SVD 生成的我正在使用 SVD 的结果进行聚
Spark 上的 Kubernetes 驱动程序 pod 清理

我在 kubernetes 1 19 上运行 Spark 3 1 1 作业完成后执行程序 Pod 就会被清理但驱动程序 Pod 仍处于完成状态驱动程序完成后如何清理要设置任何配置选项吗 NAME READY STATUS RESTA
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
使用 Glue 将数据输入到 AWS Elastic Search

我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
Spark 物理计划和逻辑计划

我有两个问题在不添加任何额外代码来打印提交的 Spark 作业的逻辑和物理计划的情况下有没有办法查看集群上运行的 Spark 作业的物理和逻辑计划有没有办法动态修改集群上正在运行的 Spark 作业的执行计划以获得更好的性能请分享您
PySpark 中别名方法的用途是什么？

在用 Python 学习 Spark 时我很难理解其目的alias方法及其用途这文档 http spark apache org docs latest api python pyspark sql html显示它被用来创建现有的副本D
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple

随机推荐

测试 libstdc++ 的版本是否使用符合 C++11 的 std::string

我正在编写一些 C 11 代码这些代码对以下性质做出了假设std string有效但代表 C 11 中更改的行为早期 libstdc 的basic string实现符合 98 03 要求但不符合更严格的 C 11 要求据我了解 l
让 GDB 在调试时完整打印一个大的 std::map

我正在研究一种使用大地图的算法我试图在纸上做的同时遵循 GDB 的算法看看哪里出了问题但随着地图变大 GDB 会缩写它并停止显示我需要的下一个值 gdb p R 1 std map with 140 elements 0 1 e 2
Anaconda/Orange3 产生 OSError: [WinError 193] %1 不是有效的 Win32 应用程序

当我尝试在 Anaconda 中的 Windows 10 下启动 Orange 3 时我得到了以下错误 Traceback most recent call last File C Users i7 Anaconda3 Scripts
带字符串的 switch 语句中需要常量表达式错误[重复]

这个问题在这里已经有答案了我收到一个 JSON 响应大致如下所示 status success data The status字段可以有两个值 success or fail 所以在我的代码中我有以下枚举 private enum S
通用类型参数哪个具体扩展类？

我想要一个实现接口的类该接口指定特定的子类作为参数 public abstract Task implements TaskStatus
使用 Convert 从 Mercurial Repo 中的子文件夹创建新的存储库

我正在尝试提取一个文件夹称之为Project1 来自现有的 Mercurial Repo 调用MainRepo 使用 Convert 扩展进行 Mercurial 到 Mercurial 的转换我遵循了 Windows XP 下 Mer
Android mkdirs() sdcard 不起作用

我想在 Sdcard 中创建目录并且我确实遵循我补充道
我想将 listview 中显示的项目列表存储到 android Sqlite 数据库 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有项目清单ListView这是从服务器获取的我的问题是如何将listview中显示的项目列表存储到Android Sqlite本地数
如何转换（类型 *bytes.Buffer）以用作 w.Write 参数中的 []byte

我试图从服务器返回一些 json 但使用以下代码收到此错误 cannot use buffer type bytes Buffer as type byte in argument to w Write 通过一点谷歌搜索我发现这个答案 h
OpenGL ES：在像素绘画应用程序中撤消

我目前正在开发一个应用程序允许用户使用 OpenGL ES 绘制像素化图像但我不知道如何实现撤消功能我怎样才能做到呢我想到为每个像素使用一个图像并将其添加到一个数组中基本上如何存储用作像素的矩形 how can I store
如何判断 lib 是使用 /mt 还是 /md 编译的？

给定一个已编译的lib 有没有办法判断它是否是用 md or mt只要看看它也许与dumpbin tool Edit dumpbin directives foo lib是以下情况的解决方案lib没有编译 GL转变是否有一个选项可以检查
一键关闭一个模态并打开一个新模态

我在用引导程序并有一个one我想有一个链接的模态another模态我似乎无法弄清楚这一点目前我正在使用modal close and modal show 但这是行不通的 a to3heart click function portfo
降低 GTK+ 中的按钮高度

我正在创建一个 GTK 3 C 应用程序它有一个很长的列表当用户单击任何列表项时应用程序需要注册现在我列出了 GTK 按钮的列表因为样式是传达功能的最清晰方式然而宽大的垂直填充意味着按钮占用的空间大约是所需空间的两倍我该如何
使用 Examine 和 Lucene.Net 查询以逗号分隔的 ID 列表？

我正在使用 Examine for Umbraco 构建于 Lucene net 之上来进行搜索我很确定我的问题与 Lucene 有关我的一个字段包含逗号分隔 ID 的列表如何以正确的方式查询该字段例如我有一个值为 64 65
如何使用 JavaScript/jQuery 编写 onshow 事件？

我的页面上有一个锚标记我想要附加一个事件当该元素的显示发生变化时该事件将触发我如何编写这个事件并在该元素的显示发生变化时捕获这是我在 onShow 上做的方式作为一个 jQuery 插件然而它可能会也可能不会完全执行您正在做
AngularJS 下拉值动态变化

我使用 AngularJS 创建了两个下拉菜单并通过控制器在其中附加了数据当第一个下拉列表发生更改时我想更改第二个下拉列表值我创建了example http addr pk a431b 但是当我更改第一个下拉列表的值时第二个下拉值
如何从 Dojo 的构建系统中排除文件？

我正在关注有关该主题的官方文档页面 http dojotoolkit org reference guide 1 9 build buildSystem html trees dirs and files但我无法将其配置为忽略 txt fi
设置 selenium 使用自定义配置文件，但它保持默认打开

我正在尝试使用 python 和 selenium 来自动执行 Firefox 中的一些任务当我下载文件时会弹出一个窗口询问您是否要打开或保存并且每次使用此类文件时都会出现一个复选框我发现除非您安装了网页修复程序上的附加功能否则
从主窗体打开现有窗体

我设计了两种形式 Form1 and Form2 Form1是主要形式里面有一个按钮Form1 如果我点击按钮那么Form2会弹出我想做点什么Form2 click button in Form1 private void butto
从 Spark 2.X 开始，无法使用 scala.None 值创建 org.apache.spark.sql.Row

由于 Spark 2 X 无法使用 scala None 值创建 org apache spark sql Row Spark 1 6 X 是可能的 Caused by java lang RuntimeException Error wh

从 Spark 2.X 开始，无法使用 scala.None 值创建 org.apache.spark.sql.Row

从 Spark 2.X 开始，无法使用 scala.None 值创建 org.apache.spark.sql.Row 的相关文章

随机推荐

热门标签