Spark数据帧中的结构体数组解析

2023-12-31

我有一个带有一个结构类型列的数据框。示例数据框架构是：

root
 |-- Data: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- name: string (nullable = true)
 |    |    |-- value: string (nullable = true)

Field name保存列名称和字段value保存列值。中的元素数量Data列未定义，因此可能会有所不同。我需要解析该数据并摆脱嵌套结构。（大批Explode在这种情况下不起作用，因为一行中的数据属于一个元素）。真正的模式要大得多，并且具有多个数组字段（例如“数据”），因此我的目标是创建一个通用解决方案，我将将该解决方案应用于类似的结构数组。例子：

样本数据：

val data = Seq(
    """{"Data": [{ "name": "FName", "value": "Alex" }, { "name": "LName",   "value": "Strong"  }]}""",
    """{"Data": [{ "name": "FName", "value": "Robert " }, { "name": "MName",   "value": "Nesta "  }]} { "name": "LName",   "value": "Marley"  }]}"""
)
val df = spark.read.json(spark.sparkContext.parallelize(data))

预期结果：

+-------+------+
|  FName| LName|
+-------+------+
|   Alex|Strong|
|Robert |Marley|
+-------+------+

作为解决方案，我创建了一个整体执行的 UDFData柱子。作为输入参数，我传递列名和我想要提取的字段名。

 val find_scheme_name_in_array = udf { (arr: Seq[Row], columnName: String) => {
    var value = ""
    arr.foreach(el =>
        if(el.getAs[String]("name") == columnName){
            value = el.getAs[String]("value")
        }
    )
    value
}}

问题是我正在使用变量value用于存储中间结果，并且我不想为将执行 UDF 的每一行创建一个新的变量。

我执行 UDF 的方式（该查询生成预期结果）：

df.select(find_scheme_name_in_array(col("Data"), lit("FName")).as("FName"),find_scheme_name_in_array(col("Data"), lit("LName")).as("LName")).show()

我很高兴听到有关如何改进 UDF 逻辑以及解决解析问题的一些不同方法的任何评论。

我已经通过替换解决了这个问题foreach循环与find method:

val find_scheme_name_in_array = udf { (arr: Seq[Row], columnName: String) =>
    arr.find(_.getAs[String]("name") == columnName) match {
        case Some(i) => i.getAs[String]("value")
        case None => null
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

Spark数据帧中的结构体数组解析的相关文章

使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
对 Scala Not Null 特征的库支持

Notice 从 Scala 2 11 开始 NotNull已弃用据我了解如果您希望引用类型不可为空则必须混合魔法NotNull特征编译器会自动阻止你输入null 可以值在里面看到这个邮件列表线程 http www nabble
类型级编程有哪些示例？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不明白类型级编程是什么意思也无法使用Google找到合适的解释有人可以提供一个演示类型级编程的示例吗范式的解释和或定义将
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
scala play框架如何对异步控制器进行单元测试

使用 Scala play 2 5 版并尝试遵循以下文档中的单元测试控制器指南 https www playframework com documentation 2 5 x ScalaTestingWithScalaTest https
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Spark 执行器登录 YARN

我正在 Cloudera 集群上以 YARN 客户端模式启动分布式 Spark 应用程序一段时间后我在 Cloudera Manager 上看到一些错误一些执行者会断开连接并且这种情况会系统性地发生我想调试该问题但 YARN 未
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
如何定义与更高类型类型（类型构造函数）绑定的上下文

我尝试过以下方法 def test Option T Ordering value1 Option T value2 Option T val e implicitly Ordering Option T compare value1 va
Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
scala中的协变类型参数需要在java接口中保持不变

我有一个看起来像这样的特征一些进一步的信息可以在我自己提出了这个相关问题 https stackoverflow com questions 3695990 inheritance and automatic type conversio
到底什么是单例类型？

什么是单例类型有什么应用和影响我们非常欢迎示例更欢迎外行术语如果将类型视为一组值则值的单例类型x是仅包含该值的类型 x 用法示例模式匹配 case Foo type检查匹配的对象是否与Foo using eq where cas
Shapeless 和 gremlin scala：如何返回调用 `as` 的结果？

所以我调用这个函数as from gremlin scala case class GremlinScala End Labels lt HList traversal GraphTraversal End def as name Str
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
在 Play2 和 Scala 中解析没有数据类型的 JSON

people name Jack age 15 name Tony age 23 name Mike age 19 这是我试图解析的 json 示例我希望能够对每个人进行 foreach 操作并打印他们的姓名和年龄我知道当 json 数
配置Scala工作表的工作目录

我希望 Scala 工作表和 Scala 解释器的工作目录是 Eclipse 项目路径而不是 Eclipse 安装目录我怎样才能非编程方式实现这一目标我知道我可以使用System setProperty user dir 但恕我
如何在Slick 3.0.0中使用StaticQuery？

在 Slick 2 1 中我使用以下代码从文件执行 sql 查询 def fetchResult T sql String implicit getResult GetResult T List T val query Q queryNA
如何将函数应用于元组？

这应该是一件容易的事如何将函数应用于 Scala 中的元组即 scala gt def f i Int j Int i j f Int Int Int scala gt val p 3 4 p Int Int 3 4 scala gt

随机推荐

有没有办法在Windows 2000上安装Delphi 2010

我刚刚从我的 SA 订阅中下载了 Delphi 2010 iso 并希望将其与笔记本电脑上的其他 Delphi 安装一起安装不幸的是它拒绝安装因为机器运行的是 Windows 2000 是否有可能以某种方式让它安装它或者是否有技术原
jq：对象不能是csv格式，只能是数组

我是 jq 新手我有一个来自 DynamoDB 表的 JSON 文件我想将其转换为 CSV 这是我的 JSON 文件 SnsPublishTime S 2019 07 27T15 07 38 904Z SESreportingMTA S
R lme4 '/usr/lib/rstudio/bin/rsession' 中的错误：malloc()：内存损坏：

每当我跑步时lmer or glmer from lme4包我收到以下错误 usr lib rstudio bin rsession 中出现错误 malloc 内存腐败我更新了所有 R 包但仍然遇到相同的错误会话信息 R versi
没有收到有关 PagedList 更新的通知

我正在使用分页列表 https developer android com reference android arch paging PagedList我的应用程序中的库一切都按预期工作使用分页列表适配器 https develope
如何检测本机反应中的循环依赖导入？

是否有任何包或解决方案可以检测本机反应中的循环依赖项导入 Or 运行应用程序时我可以获得循环导入的堆栈跟踪吗目前循环相关导入返回未定义的值但没有说明确切的问题谢谢你一个简单的解决方案是使用madge https www npmjs
Matplotlib 3d 散点图最佳拟合平面

你好我最近用 python matplotlib 为我的生物课制作了一个 3D 散点图我想知道如何实现一条最佳拟合线甚至一个平面或一个最佳拟合圆但我似乎在网上找不到任何东西这是我的代码 from mpl toolkits mplo
在 android studio 中启用自动导入的方法是什么？ [视窗]

每当我需要导入每次我需要使用Alt Enter 有什么方法可以启用android studio 自动导入在窗口中 Windows 和 OSX 的情况类似因此不会有任何变化在 android studio 中转到文件 gt 设置 gt
和

这个问题在这里已经有答案了我不知道
pdf 文件大小有限制吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想将我的文档存档为 pdf 格式有些文档非常大 pdf 大小有限制吗提前致谢是的 PDF 文件存在架构限制由于文件偏移信息必须在
根据每个表中的一列相等，使用另一个表中的数据更新一个表中的行

Update 许多行基于每个表中的一列相等 user id 从另一个表中插入一个表两个表都有一个user id柱子需要从以下位置插入数据t2 into t1当的时候user id列相等 update table1 t1 set t1
如何计算android gcm有效负载长度

在android GCM文档中据说有效负载的限制为4096字节但是我发现我可以发送 16834 个字节的有效负载我做错了吗我计算长度如下 Map
如何在soapUI中的登录响应中断言值？

我有一个登录请求我想从响应中断言一个值这是这样的回应
Django 和 threading.local() 怪癖？

最近我开始使用 threading local 作为某些 api 在请求期间存储和访问状态的方式而无需访问请求对象假设我有特定的代码 thread local threading local thread local theme da
Ubuntu 18，代理无法在终端上运行，但可以在浏览器上运行

要解决的相关且可能更简单的问题通过 MSCHAPv2 进行代理身份验证 https askubuntu com q 1161347 439867 Summary 我使用的是 Ubuntu 18 代理正在使用网络浏览器但不适用于终端应用程序
如何使用 Jenkinsfile 在 groovy 函数中使用环境变量

我正在尝试使用 Jenkinsfile 中任何节点外部定义的环境变量我可以将它们纳入任何节点中任何管道步骤的范围内但不能将其纳入函数内部目前我能想到的唯一解决方案是将它们作为参数传递但我想直接在函数内部引用环境变量这样我就不必传递
指令链接函数中的scope.$watch没有被调用

我有这个工厂 factory authentication function return loginRequired false 我有这个控制器 controller TopNavCtrl scope authentication fun
是否可以在 SharePoint 文档库中创建“文件夹链接”？

是否可以在文档库中创建不同文档库中文件夹的快捷方式最简单的方法是使用以下模式 http server site ListName Folder SubFolder 要放置文档库的快捷方式将其上传为 url 文件但是默认情况下不允许使
Numpy：将一行中的每个元素替换为同一行中其他元素的最大值

假设我们有一个像这样的二维数组 gt gt gt a array 1 1 2 0 2 2 2 2 0 0 2 0 对于每一行我想将每个元素替换为同一行中其他两个元素中的最大值我找到了如何使用 numpy amax 和一个恒等数组分别为每
HostGator 不会通过 PHP SwiftMail API 发送邮件

PHP 版 SwiftMail API 无法在 HostGator 上运行是否有原因他们的技术支持人员表示使用 mail 命令到端口 25 的套接字连接将无法像他们的共享托管计划那样工作我抱怨说当你在谷歌上搜索如何使用 mail
Spark数据帧中的结构体数组解析

我有一个带有一个结构类型列的数据框示例数据框架构是 root Data array nullable true element struct containsNull true name string nullable true valu

Spark数据帧中的结构体数组解析

Spark数据帧中的结构体数组解析 的相关文章

随机推荐

热门标签

Spark数据帧中的结构体数组解析的相关文章