如何从结构元素的嵌套数组创建 Spark DataFrame？

2023-11-27

我已将 JSON 文件读入 Spark。该文件具有以下结构：

scala> tweetBlob.printSchema
root
 |-- related: struct (nullable = true)
 |    |-- next: struct (nullable = true)
 |    |    |-- href: string (nullable = true)
 |-- search: struct (nullable = true)
 |    |-- current: long (nullable = true)
 |    |-- results: long (nullable = true)
 |-- tweets: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- cde: struct (nullable = true)
...
...
 |    |    |-- cdeInternal: struct (nullable = true)
...
...
 |    |    |-- message: struct (nullable = true)
...
...

我理想地想要的是一个带有“cde”、“cdeInternal”、“message”列的 DataFrame...如下所示

root
|-- cde: struct (nullable = true)
...
...
|-- cdeInternal: struct (nullable = true)
...
...
|-- message: struct (nullable = true)
...
...

我设法使用“explode”将“tweets”数组中的元素提取到名为“tweets”的列中

scala> val tweets = tweetBlob.select(explode($"tweets").as("tweets"))
tweets: org.apache.spark.sql.DataFrame = [tweets: struct<cde:struct<author:struct<gender:string,location:struct<city:string,country:string,state:string>,maritalStatus:struct<evidence:string,isMarried:string>,parenthood:struct<evidence:string,isParent:string>>,content:struct<sentiment:struct<evidence:array<struct<polarity:string,sentimentTerm:string>>,polarity:string>>>,cdeInternal:struct<compliance:struct<isActive:boolean,userProtected:boolean>,tracks:array<struct<id:string>>>,message:struct<actor:struct<displayName:string,favoritesCount:bigint,followersCount:bigint,friendsCount:bigint,id:string,image:string,languages:array<string>,link:string,links:array<struct<href:string,rel:string>>,listedCount:bigint,location:struct<displayName:string,objectType:string>,objectType:string,postedTime...
scala> tweets.printSchema
root
 |-- tweets: struct (nullable = true)
 |    |-- cde: struct (nullable = true)
...
...
 |    |-- cdeInternal: struct (nullable = true)
...
...
 |    |-- message: struct (nullable = true)
...
...

如何选择结构内的所有列并从中创建一个 DataFrame？如果我的理解是正确的，爆炸不适用于结构。

任何帮助表示赞赏。

处理此问题的一种可能方法是从模式中提取所需的信息。让我们从一些虚拟数据开始：

import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.types._


case class Bar(x: Int, y: String)
case class Foo(bar: Bar)

val df = sc.parallelize(Seq(Foo(Bar(1, "first")), Foo(Bar(2, "second")))).toDF

df.printSchema

// root
//  |-- bar: struct (nullable = true)
//  |    |-- x: integer (nullable = false)
//  |    |-- y: string (nullable = true)

和一个辅助函数：

def children(colname: String, df: DataFrame) = {
  val parent = df.schema.fields.filter(_.name == colname).head
  val fields = parent.dataType match {
    case x: StructType => x.fields
    case _ => Array.empty[StructField]
  }
  fields.map(x => col(s"$colname.${x.name}"))
}

最终结果：

df.select(children("bar", df): _*).printSchema

// root
// |-- x: integer (nullable = true)
// |-- y: string (nullable = true)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

apachesparksql

如何从结构元素的嵌套数组创建 Spark DataFrame？的相关文章

Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
df.drop（如果存在）

下面是一个函数它接受一个文件并删除列名row num start date end date 问题是并非每个文件都有这些列名因此该函数返回错误我的目标是更改代码以便删除这些列如果存在但如果某个列不存在则不会返回错误 def re
获取 Pandas Dataframe 中列名的排名

我将客户 ID 与他们最常购买的表演类型进行比较 Genre Jazz Dance Music Theatre Customer 100000000001 0 3 1 2 100000000002 0 1 6 2 100000000003
使用 pandas 删除停用词

我想从数据框的列中删除停用词列内有需要拆分的文本例如我的数据框如下所示 ID Text 1 eat launch with me 2 go outside have fun 我想应用停用词text column所以应该分开我试过这个
在 R 中用 mutate_at 覆盖很多列？

鉴于以下情况dataframe我正在尝试改变一切除了c and d列使用dplyr mutate at with lambda功能但没有运气 structure list a c 1 2 3 b c 43 2 1 c c 234242 2
在 R 中创建缓冲区和计数点

I asked 这个问题 https stackoverflow com questions 42498344 create buffer around spatial point data in r and count how many
从 pandas 数据帧中提取阶段/段以及相应的时间戳

我有以下数据框 Sleep Stage Time hh mm ss Event Duration s 0 SLEEP S0 23 27 14 SLEEP S0 30 1 SLEEP S0 23 27 44 SLEEP S0 30 2 SLE
R：将数据帧分为 3 部分

我试图将数据框分为 3 部分 4352 行我试过split df 1 3 它完成了工作但是当我尝试查看 split df 时它给出了错误 splitdf lt split df f rep len 1 3 nrow df View s
Scala 中值类的隐式 Json 格式化程序

我有许多值类组成了一个更大的对象案例类 final case class TopLevel foo Foo bar Bar final case class Foo foo String extends AnyVal final case
使用原始类型模拟案例类

考虑以下类型结构 trait HasId T def id T case class Entity id Long extends HasId Long 比方说我们想在一些测试中模拟实体类 val entityMock mock Enti
使用 Akka 玩 2.5 - 找不到参数超时的隐式值：akka.util.Timeout

我正在尝试使用 Play 2 5 测试 Akka 但遇到了一个似乎无法解决的编译错误我正在关注 Play 文档中的此页面 https playframework com documentation 2 5 x ScalaAkka http
Python Pandas——用前一列的值向前填充整行

pandas 开发新手如何使用先前看到的列中包含的值向前填充 DataFrame 独立的示例 import pandas as pd import numpy as np O 1 np nan 5 np nan H 5 np nan 5
如果满足 NaN 阈值，Python 将删除 DF 中的所有特征实例

Using df dropna thresh x inplace True 我可以成功删除至少缺少的行x非纳米值但因为我的 df 看起来像 2001 2002 2003 2004 bob A 123 31 4 12 bob B 41 1
使用 Spray-json 解析简单数组

我正在尝试但失败了了解 Spray json 如何将 json feed 转换为对象如果我有一个简单的 key gt value json feed 那么它似乎可以正常工作但是我想要读取的数据出现在如下列表中 name John a
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
Pandas：向量化局部范围操作（[i:i+2] 行的最大值和总和）

我希望在数据帧中的每一行的局部范围内进行计算同时避免速度缓慢for环形例如对于下面数据中的每一行我想找到未来 3 天内包括当天的最高气温以及未来 3 天内的总降雨量 Day Temperature Rain 0 30 4 1 3
替换 pandas 数据框中的点

我有一个如图所示的数据框数字实际上是对象正在做df treasury rate pd to numeric df treasury rate 可预见的炸弹然而做df replace np nan 似乎没有摆脱这个点所以我很困惑有
为什么《Scala 中的函数式编程》一书的“无异常处理错误”一章中没有提到“scala.util.Try”？

在 Scala 中的函数式编程一书中的无异常处理错误一章中作者给出从函数体抛出异常的问题 Use Option如果我们不关心实际的异常 Use Either如果我们关心实际的异常 But scala util Try没有提到从我
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from

随机推荐

自动装箱和拆箱在 Java 和 C# 中的行为是否不同

我正在手动将代码从 Java 1 6 转换为 C 并发现基元 int 和 double 的行为存在一些困难在 C 中似乎几乎所有转换都会自动发生 List
两个日期相减得到时间增量

我正在尝试从我的数据库值之一获取一个值该值将通过从今天的日期减去购买日期来给出我这样写了我的代码 delta datetime now item purchase date 但这给了我这个错误 unsupported operand t
使用 dask.delayed 和 pandas.DataFrame 将字典的 dask.bag 转换为 dask.dataframe

我正在努力转换dask bag的字典到dask delayed pandas DataFrames进入决赛dask dataframe 我有一个函数 make dict 将文件读入相当复杂的嵌套字典结构另一个函数 make df 将这些字
第二次迭代文件不起作用[重复]

这个问题在这里已经有答案了我在迭代文件时遇到问题这是我在解释器上输入的内容和结果 gt gt gt f open baby1990 html rU gt gt gt for line in f readlines print line
如何在 Rust 中连接静态切片？

我有两个静态切片u8我会实现一个函数来连接它们类似的东西 fn concat u8 first static u8 second static u8 gt static u8 first second concat 编译器向我显示错误re
/usr/bin/rename：参数列表太长（批量重命名文件）

我试图通过截断文件名中出现第一个空格的文件来批量重命名某些文件我编写了一个简单的脚本来通过重命名来执行此操作 for i in fa do rename s s fa done 这在测试中效果很好并根据需要产生以下结果 testenv
如何在 VBA 中使用 FileSystemObject？

有什么我需要参考的吗我该如何使用这个 Dim fso As New FileSystemObject Dim fld As Folder Dim ts As TextStream 我收到错误因为它无法识别这些对象在 Excel 中您
无法实例化邮件功能。为什么会出现这个错误

当我尝试通过 PHPMailer 发送邮件时收到此错误消息我的代码如下
MySQLi 中的 SELECT * FROM

我的网站相当广泛而且我最近刚刚切换到 PHP5 请称我为大器晚成者我之前的所有 MySQL 查询都是这样构建的 SELECT FROM tablename WHERE field1 value field2 value2 这使得一切变得
在两个圆之间画一个箭头？

如何在两个圆之间绘制箭头线给定圆心的位置圆的半径我在用line and markersvg 对象 If I draw the arrows to the center of the circle then the arrow is
为什么这个多重绑定不起作用

我从我的复选框命令发送了多个参数我用过转换器代码如下如果我放置一个调试器并看到这里的值就是我的结果当复选框检查被选中或取消选中时在转换器中它具有值项目对象和布尔值的数组但是当我使用我的方法时该值是一个对象 2 但两个值都是
为单元测试创建对象 MockHttpServletResponse 时出错

我试图使用 sprint test 为 Servlet 编写单元测试模拟对象我的 Maven 依赖项是
将 double 转换为小数点后特定数字的科学记数法

我想将双精度转换为科学计数法如下所示 0 00752382528 gt 752383E 1 我可以用 ToString 或 Regex 来做到这一点吗您可以使用标准格式字符串对于科学计数法 0 00752382528 ToString
SSL 证书链不同；如何验证？

简洁版本我看到 SSL 证书链根据我访问 https 服务器的方式而有所不同这是怎么回事在这种情况下我该如何验证证书稍微长一点的版本我正在尝试使用 libcurl 来验证 SSL 连接的证书我连接到的服务器是 Amazon S3
如何在Python中获取文件关闭事件

在 windows 7 64 位机器上使用 python 2 7 如何获取文件关闭事件当文件在文件打开器的新进程中打开时例如记事本写字板每次在写字板的新进程中打开文件当文件在文件打开器的选项卡中打开时例如notepad 它在新选
无法在 Heroku 上进行 pg_restore：“无法从输入文件读取：文件结尾”

我正在尝试将本地 PostgreSQL 数据库复制到 Heroku 应用程序pg dump pg restore实用程序按照 Heroku 的官方指南进行 https devcenter heroku com articles herok
递归引用数据框

有没有办法让数据框引用自身我发现自己花了很多时间写类似的东西y Category1 is na y Category1 lt NULL这些内容很难阅读而且感觉就像是大量缓慢的重复打字我想知道是否有类似的内容 y Category1 i
SQL 嵌套替换

我有一个复杂的嵌套替换我用它来连接 MSSQL 中的两个表 select from A left outer join select from B on replace replace replace replace replace A
Numpy 源代码中的常量是在哪里定义的？

我试图找到常量在 numpy 中存储的位置一些方向会很好里面定义了很多常量 numpy core include numpy npy math h 当前定义的是从第 48 行开始 define NPY INFINITYF npy in
如何从结构元素的嵌套数组创建 Spark DataFrame？

我已将 JSON 文件读入 Spark 该文件具有以下结构 scala gt tweetBlob printSchema root related struct nullable true next struct nullable true

如何从结构元素的嵌套数组创建 Spark DataFrame？

如何从结构元素的嵌套数组创建 Spark DataFrame？ 的相关文章

随机推荐

热门标签

如何从结构元素的嵌套数组创建 Spark DataFrame？的相关文章