展平 Scala Spark Dataframe 中的嵌套 json

2024-03-01

我有多个来自任何restapi 的json，但我不知道它的架构。我无法使用 dataframes 的爆炸功能，因为我不知道由 Spark api 创建的列名称。

1.我们可以通过解码值来存储嵌套数组元素的键吗dataframe.schema.fields，由于spark仅提供数据帧行中的值部分，并以顶级键作为列名。

数据框——

+--------------------+
|       stackoverflow|
+--------------------+
|[[[Martin Odersky...|
+--------------------+

是否有任何最佳方法可以通过在运行时确定架构来使用数据帧方法来压平 json。

示例 Json -：

{
  "stackoverflow": [{
    "tag": {
      "id": 1,
      "name": "scala",
      "author": "Martin Odersky",
      "frameworks": [
        {
          "id": 1,
          "name": "Play Framework"
        },
        {
          "id": 2,
          "name": "Akka Framework"
        }
      ]
    }
  },
    {
      "tag": {
        "id": 2,
        "name": "java",
        "author": "James Gosling",
        "frameworks": [
          {
            "id": 1,
            "name": "Apache Tomcat"
          },
          {
            "id": 2,
            "name": "Spring Boot"
          }
        ]
      }
    }
  ]
}

注意 - 我们需要在 dataframe 中执行所有操作，因为有大量数据即将到来，我们无法解析每个 json。

尽量避免展平所有列。

创建辅助函数&您可以直接调用df.explodeColumns在数据帧上。

下面的代码将展平多层数组和结构类型列。

scala> :paste
// Entering paste mode (ctrl-D to finish)

import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._
import scala.annotation.tailrec
import scala.util.Try

implicit class DFHelpers(df: DataFrame) {
    def columns = {
      val dfColumns = df.columns.map(_.toLowerCase)
      df.schema.fields.flatMap { data =>
        data match {
          case column if column.dataType.isInstanceOf[StructType] => {
            column.dataType.asInstanceOf[StructType].fields.map { field =>
              val columnName = column.name
              val fieldName = field.name
              col(s"${columnName}.${fieldName}").as(s"${columnName}_${fieldName}")
            }.toList
          }
          case column => List(col(s"${column.name}"))
        }
      }
    }

    def flatten: DataFrame = {
      val empty = df.schema.filter(_.dataType.isInstanceOf[StructType]).isEmpty
      empty match {
        case false =>
          df.select(columns: _*).flatten
        case _ => df
      }
    }
    def explodeColumns = {
      @tailrec
      def columns(cdf: DataFrame):DataFrame = cdf.schema.fields.filter(_.dataType.typeName == "array") match {
        case c if !c.isEmpty => columns(c.foldLeft(cdf)((dfa,field) => {
          dfa.withColumn(field.name,explode_outer(col(s"${field.name}"))).flatten
        }))
        case _ => cdf
      }
      columns(df.flatten)
    }
}

// Exiting paste mode, now interpreting.

import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._
import scala.annotation.tailrec
import scala.util.Try
defined class DFHelpers

扁平柱

scala> df.printSchema
root
 |-- stackoverflow: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- tag: struct (nullable = true)
 |    |    |    |-- author: string (nullable = true)
 |    |    |    |-- frameworks: array (nullable = true)
 |    |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |    |-- id: long (nullable = true)
 |    |    |    |    |    |-- name: string (nullable = true)
 |    |    |    |-- id: long (nullable = true)
 |    |    |    |-- name: string (nullable = true)


scala> df.explodeColumns.printSchema
root
 |-- author: string (nullable = true)
 |-- frameworks_id: long (nullable = true)
 |-- frameworks_name: string (nullable = true)
 |-- id: long (nullable = true)
 |-- name: string (nullable = true)

scala>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

multidimensionalarray

apachesparksql

展平 Scala Spark Dataframe 中的嵌套 json 的相关文章

scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
对于空列表，max() 应该返回什么？

Got java util NoSuchElementException head of empty list所以我试着检查一下但现在我明白了 info max of a few numbers FAILED info 0 did not
Java / Scala Future 由回调驱动

简洁版本我怎样才能创建一个Promise
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
Scala 中值类的隐式 Json 格式化程序

我有许多值类组成了一个更大的对象案例类 final case class TopLevel foo Foo bar Bar final case class Foo foo String extends AnyVal final case
使用原始类型模拟案例类

考虑以下类型结构 trait HasId T def id T case class Entity id Long extends HasId Long 比方说我们想在一些测试中模拟实体类 val entityMock mock Enti
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
一维数组元素的最近邻运算

我有二维数组想将其转换为一维数组二维数组是 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 到一维数组 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 如何访问元素编号的最近邻
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
Scala：类似 Option (Some, None) 但具有三种状态：Some、None、Unknown

我需要返回值当有人询问值时告诉他们以下三件事之一这是值没有价值我们没有关于该值的信息未知情况 2 与情况 3 略有不同示例 val radio car radioType 我们知道该值返回无线电类型例如 pioneer
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
为什么《Scala 中的函数式编程》一书的“无异常处理错误”一章中没有提到“scala.util.Try”？

在 Scala 中的函数式编程一书中的无异常处理错误一章中作者给出从函数体抛出异常的问题 Use Option如果我们不关心实际的异常 Use Either如果我们关心实际的异常 But scala util Try没有提到从我
使用 php 在多维数组中按键排序[重复]

这个问题在这里已经有答案了可能的重复在 PHP 中对多维数组进行排序 https stackoverflow com questions 2059255 sorting multidimensional array in php 如何在
Scala：如何在超类上实现克隆方法，并在子类中使用它？

我可能会以错误的方式处理这个问题但我想要一个像这样的对象 class MyDataStructure def myClone val clone new MyDataStructure do stuff to make clone the
Scala 模式匹配变量绑定

为什么提取器返回时不能以样式绑定变量Option
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
按第一列排序二维数组，然后按第二列排序

int arrs 1 100 11 22 1 11 2 12 Arrays sort arrs a b gt a 0 b 0 上面的数组已排序为 1 100 1 11 2 12 11 22 我希望它们按以下方式排序a 0 b 0 首先如果
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
传递给函数时多维数组的指针类型是什么？ [复制]

这个问题在这里已经有答案了我在大学课堂上学习了 C 语言和指针除了多维数组和指针之间的相似性之外我认为我已经很好地掌握了这个概念我认为由于所有数组甚至多维都存储在连续内存中因此您可以安全地将其转换为int 假设给定的数组是in
Scala 中的 Shapeless 结构编程：如何正确使用 SYB 实现？

我想使用SYB http research microsoft com en us um people simonpj papers hmap 实施于无形图书馆 https github com milessabin shapeless编写

随机推荐

通过管道连接 popen stderr 和 stdout

我想通过 python 从目录调用脚本它们是可执行的 shell 脚本到目前为止一切都很好 for script in sorted os listdir initdir reverse reverse if script endsw
python -m SimpleHTTPServer - 监听 0.0.0.0:8000 但 http://0.0.0.0:8000/test.html 给出“找不到页面”

cd 到我的文件夹后我输入 python m SimpleHTTPServer and get Serving HTTP on 0 0 0 0 port 8000 回复但当我击中http 0 0 0 0 8000 test html我收
JPA/Hibernate 有条件一对多关系？

我正在使用 Hibernate Tools 直接从数据库生成 DAO 和类数据库中有两张表表A和B A到B之间存在一对多关系 B中的多行映射到单个A 在A A类的生成代码中有B类的集合体现了一对多的关系但是我不需要 B 中属于
从 ejs 模板生成静态 HTML 文件

好的我已经启动并运行了我的基本 Nodejs 网站这一切都正常工作并通过节点服务器运行使用我的基本节点站点 https github com andrewbrandwood node basic site 它使用 ejs 作为模板引擎
Java 中内存分配的典型速度是多少？

我正在分析一个 Java 应用程序发现对象分配的速度比我预期的要慢得多我运行了一个简单的基准测试来尝试确定小对象分配的整体速度我发现在我的机器上分配一个小对象 3 个浮点数的向量似乎需要大约 200 纳秒我在双核 2 0 GHz
Json.NET：反序列化嵌套字典

将对象反序列化为Dictionary JsonConvert DeserializeObject
openerp中的父左和父右

什么是父左和父右它是如何运作的Openerp Thanks 正如拉斐尔科莱 Raphael Collet 所解释的那样他关于 OpenERP Server 的回答 https answers launchpad net openobje
如何使用 WebStorm 进行 Chrome 扩展开发？

我刚刚购买了 WebStorm 5 到目前为止一直非常喜欢它的检查功能我在开发 Chrome 扩展程序时遇到的一个问题是它无法识别chrome多变的有什么办法可以添加chrome变量到检查器以便它可以在我键入时自动完成我猜我需要添加
SurfaceTexture updateTexImage 共享 2 个 EGLContext - Android 4.4 上的问题

我指的是这个关于如何将相机的预览帧直接编码到 mp4 文件中的优秀示例 http bigflake com mediacodec CameraToMpegTest java txt http bigflake com mediacodec
这不知何故冻结了我的整个程序，我不确定为什么？

所以我在线程上运行所有内容run and not run按预期工作但是running不打印我尝试调用它 status text Working print run process 但这只会冻结我的整个程序我也尝试放入root afte
如何在SAPUI5中自定义Shell容器[重复]

这个问题在这里已经有答案了我有一个外壳容器在大屏幕上我想充分利用屏幕我想覆盖整个区域我如何定制它我假设您正在使用 XML 来表达您的观点添加以下属性appWidthLimited false 到 Shell 标签
如何从我的位置在 Google Maps API V2 中绘制路线 [重复]

这个问题在这里已经有答案了我想进行方向应用但是我在绘制从我的位置到目的地的路线时遇到问题我从我的位置获取变量经度和纬度但我不知道画线我想绘制到该位置的方向 6 984873352070259 108 48140716552734
从 MediaStream 对象获取媒体详细信息（分辨率和帧速率）

我正在捕获用户的相机我想以尽可能最佳的分辨率捕获图片所以我的代码类似于下面的代码片段我想从传入流中读取分辨率详细信息因此我可以将其设置为视频高度和宽度我将用它来单击快照我希望快照具有流提供的最佳质量这可能吗读取分辨率详细信息
“粗箭头”（=>）何时绑定到“this”实例

粗箭头可以在不同的设置中使用但不知何故却不能始终绑定到我想要的实例粗箭头绑定3次声明方法时在方法内声明函数时在全局上下文中声明函数时 1 声明方法时当 Coffeescript 编译器遇到以下语法模式时在类声明中 class
在单个文件中重新启动/撤消冲突解决方案

在具有多个冲突文件的较大 git 合并中我错误地将文件标记为已解决使用git add FILE经过一些编辑现在我想撤消冲突解决尝试并重新开始解决该文件我怎样才能做到这一点在这里找到了解决方案 http gitster livejo
使用 valueForKeyPath 获取数组元素

有什么办法可以访问NSArray元素与valueForKeyPath 例如谷歌的反向地理编码服务返回非常复杂的数据结构如果我想获取城市现在我必须将其分成两个调用如下所示 NSDictionary address NSString s
计算 PHP echo 表中的出现次数

我是 PHP 和 MySQL 的新手虽然 StackOverflow 上有很多这方面的示例但它们都不太适合我的情况所以我有一张表名为votes 看起来像这样 student name student id teacher Joe
解释重构[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 Question 我的问题是如何教授整理和重构代码的方法和重要性背景我最近正在为一位同事进行代码审查他们对早已消失的同事工作做了一些
如何在 UIlabel 中显示阿拉伯语文本

我从服务器得到这个字符串作为响应它实际上是阿拉伯语 1606 1585 1610 1583 1571 1606 1606 1585 1609 1607 1584 1575 1601 1610 1575 1604 1604 1594 157
展平 Scala Spark Dataframe 中的嵌套 json

我有多个来自任何restapi 的json 但我不知道它的架构我无法使用 dataframes 的爆炸功能因为我不知道由 Spark api 创建的列名称 1 我们可以通过解码值来存储嵌套数组元素的键吗dataframe schema

展平 Scala Spark Dataframe 中的嵌套 json

展平 Scala Spark Dataframe 中的嵌套 json 的相关文章

随机推荐

热门标签