在 Spark 中将带有 MapType 列的 DataFrame 写入数据库

2024-03-02

我正在尝试使用 clickhouse-native-jdbc 驱动程序将带有 MapType 列的数据帧保存到 Clickhouse（架构中也包含地图类型列），并遇到以下错误：

Caused by: java.lang.IllegalArgumentException: Can't translate non-null value for field 74
        at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$.$anonfun$makeSetter$16(JdbcUtils.scala:593)
        at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$.$anonfun$makeSetter$16$adapted(JdbcUtils.scala:591)

我在spark源代码中找到了这个地方，它包含以下内容：

private def makeSetter(
      conn: Connection,
      dialect: JdbcDialect,
      dataType: DataType): JDBCValueSetter = dataType match {
    case IntegerType =>
      (stmt: PreparedStatement, row: Row, pos: Int) =>
        stmt.setInt(pos + 1, row.getInt(pos))

    case LongType =>
      (stmt: PreparedStatement, row: Row, pos: Int) =>
        stmt.setLong(pos + 1, row.getLong(pos))

...
    case _ =>
      (_: PreparedStatement, _: Row, pos: Int) =>
        throw new IllegalArgumentException(
          s"Can't translate non-null value for field $pos")

该函数匹配列类型，如果没有合适的类型，则会抛出此错误。正如我所看到的，spark 根本无法处理 MapType 列。

我尝试复制和修改org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils文件以使其能够与 MapType 列一起使用，如下所示：

case MapType(_, _, _) =>
    (stmt: PreparedStatement, row: Row, pos: Int) =>
        val map = row.getMap[AnyRef, AnyRef](pos)
        stmt.setObject(pos + 1, mapAsJavaMap(map))

在本地计算机中，它按预期工作，但在集群模式执行器中使用库存版本，而不是我自己的版本。

有谁知道如何让 Spark 以另一种方式使用 MapType 列，或者使用修改后的源代码来创建执行器？

感谢 Danilo Rodrigues 的启发，最后我这样解决了我的问题：我没有按原样编写 Map 值，而是将其转换为 json 字符串，Clickhouse 中的表架构现在如下所示：

CREATE TABLE t1 (
    param_str String,
    param MATERIALIZED cast((arrayMap(x->x.1, JSONExtractKeysAndValues(param_str, 'String')), arrayMap(x->x.2, JSONExtractKeysAndValues(param_str, 'String'))), 'Map(String, String)')
) Engine ...

是的，它看起来有点难看，我更愿意选择改变 Spark 源代码的方法，但当前的方法效果很好

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

JDBC

clickhouse

在 Spark 中将带有 MapType 列的 DataFrame 写入数据库的相关文章

Scala：如何编写将类型化为接收者的实现类型的对象返回的方法

我知道 Scala 中不推荐使用案例类继承但为了简单起见我在以下示例中使用了它 scala gt case class Foo val f String def foo g String Foo this copy f g define
自定义 NIO 文件系统无法通过 SBT 的测试任务加载

为了进行测试我使用内存中的 NIOFileSystem执行 memoryfs https github com openCage memoryfs 我以前已经利用过它并且它似乎运行良好例如梅文然而现在在SBT项目中不可能初始化
对于空列表，max() 应该返回什么？

Got java util NoSuchElementException head of empty list所以我试着检查一下但现在我明白了 info max of a few numbers FAILED info 0 did not
宏：knownDirectSubclasses 被嵌套类型破坏？

我有一个宏它枚举密封特征的直接子类型 import scala reflect macros Context import language experimental macros object Checker def apply A U
Scala 中值类的隐式 Json 格式化程序

我有许多值类组成了一个更大的对象案例类 final case class TopLevel foo Foo bar Bar final case class Foo foo String extends AnyVal final case
Scala 相当于 Java 的 Number

我正在尝试为数值域类型构建类型层次结构例如AYear is an Int 这是一个Number a Percentage is a Double 这是一个Number等等我需要层次结构以便我可以调用toInt or toDouble关于
最小重复子串

我正在看 Perl代码高尔夫页面 http www perlmonks org node id 82878 不要问为什么并遇到了这个第 3 洞最小重复图案编写一个子例程它接受一个字符串该字符串可能包含重复模式并返回最小的重复
使用原始类型模拟案例类

考虑以下类型结构 trait HasId T def id T case class Entity id Long extends HasId Long 比方说我们想在一些测试中模拟实体类 val entityMock mock Enti
使用 Akka 玩 2.5 - 找不到参数超时的隐式值：akka.util.Timeout

我正在尝试使用 Play 2 5 测试 Akka 但遇到了一个似乎无法解决的编译错误我正在关注 Play 文档中的此页面 https playframework com documentation 2 5 x ScalaAkka http
Source.getLines 中的默认参数错误 (Scala 2.8.0 RC1)

假设我运行 Scala 2 8 0 RC1 以下 scala 代码应该打印出文件 c hello txt 的内容 for line lt Source fromPath c hello txt getLines println line 但
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
Scala：类似 Option (Some, None) 但具有三种状态：Some、None、Unknown

我需要返回值当有人询问值时告诉他们以下三件事之一这是值没有价值我们没有关于该值的信息未知情况 2 与情况 3 略有不同示例 val radio car radioType 我们知道该值返回无线电类型例如 pioneer
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
在 Scala 和 SBT 中调试较长的编译时间

在我的 Scala SBT 项目中我有一个文件需要 5 分钟才能编译所有其他的都可以在几秒钟内编译这使得开发非常痛苦我确信我滥用了一些 Scala 构造但我不知道如何调试它如何在 Scala 中调试较长的编译时间我正在使用 S
将 SQL 数据中的一行映射到 Java 对象

我有一个 Java 类其实例字段以及匹配的 setter 方法与 SQL 数据库表的列名相匹配我想优雅地从表中获取一行到 ResultSet 中并将其映射到此类的实例例如我有一个 Student 类其中包含实例字段 FNA
Scala 和变量中的模式匹配

我是 Scala 新手有点想知道模式匹配是如何工作的想象一下我有以下内容 case class Cls i Int case b Cls i gt Ok case e Cls gt Ok case f Cls gt Ok case s
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
对 Scala Not Null 特征的库支持

Notice 从 Scala 2 11 开始 NotNull已弃用据我了解如果您希望引用类型不可为空则必须混合魔法NotNull特征编译器会自动阻止你输入null 可以值在里面看到这个邮件列表线程 http www nabble

随机推荐

如何将 React 组件导出为 npm 包？ Create-React-App 语法错误：意外的标记

我创建了反应应用程序名称为 create react app npm 在 src index js 文件中我导出了组件以在另一个项目中使用它的 npm 包首先我在我的主根目录中运行了这段代码 npm run eject然后是我项目的
PDFBox 叠加失败

我使用 PDFBox 1 8 8 并尝试使用以下 scala 方法将 PDDocument 与其他文档叠加 def mergeTest val home System getProperty user home val doc PDDocu
Azure DevOps REST API SendMail

我正在尝试在发布定义的成功阶段后发送邮件遵循文档在我的阶段中选中了 OAuth 框项目收集服务帐户已添加到构建管理员和发布管理员中但 REST API 的响应是 Azure DevOps Login Page 这是我的脚本 Orga
EF5：如何更改默认的删除功能来实现我自己的

嗯这是我的情况我们不想删除表中的数据有一个名为 isDeleted 的列应该更新而不是删除它我想使用 EF5 开发随附的 Web 应用程序但我遇到了问题我如何实施该限制我可以使用存储过程来删除和选择但我希望有一种方法可以使用
在 ES6 之前，在 Typescript 中实现 Iterator 的推荐方法[重复]

这个问题在这里已经有答案了我有一个项目其中包含许多理想情况下可以实现的类Iterable
Rails in_place_edit：如何传递真实性令牌？

我正在尝试进行适当的编辑工作但遇到了此错误 ActionController InvalidAuthenticityToken ActionController InvalidAuthenticityToken 我知道 Rails 现在想
如何找到GIF图像中图像块从哪里开始？

信息来源 http www onicos com staff iz formats gif html header http www onicos com staff iz formats gif html header In GIFima
计算单个查询的加权平均值

示例数据 table A part rating numReviews A308 100 7 A308 98 89 我正在尝试获取上述数据的平均评分它需要的是rating numReviews每行除以总数numReviews 这就是我正在
Windows Phone 8 应用程序开发的设置。制作新项目时出错

我有 1 Windows 7 64 位 2 Visual Studio 13 已安装 3 Windows Phone SDK 8 1 已安装当我创建新的移动项目时出现错误创建子项目 App Mobile Native WinPhone
MySQL插入大量数据时出现数据截断错误如何解决？

我正在使用一个来自 Java 应用程序的相当简单的数据库我们尝试使用标准 JDBC mysql 适配器一次插入大约 200k 的文本我们间歇性地得到一个com mysql jdbc MysqlDataTruncation Data tr
从内核模块触发用户线程的最佳方法是什么

我在内核中有一个模块其中在特定事件计数时我想唤醒一个用户线程该线程将通过 proc fs 从内核模块读取一些数据我正在尝试从内核模块向处于睡眠状态的用户线程发送 RT 信号该信号将调用其处理程序并进一步从内核读取数据缓冲区并将
&& 之后的条件是否总是得到评估

我有这个if测试以下 2 个条件的语句第二个是一个函数goodToGo 所以我想调用它除非第一个条件已经成立 value 2239 if value lt 2000 goodToGo value do stuff function go
使用 Cloudflare 时，NGINX 速率限制不起作用。我可以使用简单的“ab”命令关闭我的网站

我根据这篇博客文章实现了一个非常简单但超级有效的速率限制 https www nginx com blog rate limiting nginx https www nginx com blog rate limiting nginx 基
在 iOS 上使用 C++ 获取加密安全随机数

我正在开发一个用 Objective C 和 C 编写的 iOS 应用程序在 C 部分我需要加密安全的随机数据我了解iOS安全模型没有办法访问 dev random直接地那是对的吗获取安全随机数的官方方法是Sec随机复制字节 h
是否可以将 C# 结构体之类的联合序列化为 XML？

假设我有这个简单的类似联合 C 结构 StructLayout LayoutKind Explicit public struct MyData FieldOffset 0 public int Num FieldOffset 0 pub
Angular2 http.request 无法添加标头

我在 Angular2 TypeScript 中有这段代码我试图添加如下所示的标题 access token localStorage getItem token client localStorage getItem client ui
使用 XSL:FO 将附件添加到 PDF

解决后内联图像 https stackoverflow com questions 10372069 inline image data in xslfo apache fop在SO的帮助下我需要整理内联附件 PDF 可以包含附件我发现
HTTPClient 示例 - 线程“main”中的异常 java.lang.NoSuchFieldError: INSTANCE

我正在使用 Apache 的 HttpClient 组件来执行以下简单程序并且看到以下异常 Exception in thread main java lang NoSuchFieldError INSTANCE at org apach
如何加载保存为 .pb 的 keras 模型

I d like to load a keras model that i ve trained and saved it as pb Here s the code 我正在使用 jupyter 笔记本模型已成功另存为保存的模型 pb在同
在 Spark 中将带有 MapType 列的 DataFrame 写入数据库

我正在尝试使用 clickhouse native jdbc 驱动程序将带有 MapType 列的数据帧保存到 Clickhouse 架构中也包含地图类型列并遇到以下错误 Caused by java lang IllegalArgume

在 Spark 中将带有 MapType 列的 DataFrame 写入数据库

在 Spark 中将带有 MapType 列的 DataFrame 写入数据库 的相关文章

随机推荐

热门标签

在 Spark 中将带有 MapType 列的 DataFrame 写入数据库的相关文章