Spark - 如何组合/合并 Seq[Row] 中 Dataframe 中的元素以生成 Row

2023-12-12

首先我想说我被迫使用 Spark 1.6

我正在生成一个DataFrame来自这样的 JSON 文件：

{"id" : "1201", "name" : "satish", "age" : "25"},
{"id" : "1202", "name" : "krishna", "age" : "28"},
{"id" : "1203", "name" : "amith", "age" : "28"},
{"id" : "1204", "name" : "javed", "age" : "23"},
{"id" : "1205", "name" : "mendy", "age" : "25"},
{"id" : "1206", "name" : "rob", "age" : "24"},
{"id" : "1207", "name" : "prudvi", "age" : "23"}

The DataFrame好像：

+---+----+-------+
|age|  id|   name|
+---+----+-------+
| 25|1201| satish|
| 28|1202|krishna|
| 28|1203|  amith|
| 23|1204|  javed|
| 25|1205|  mendy|
| 24|1206|    rob|
| 23|1207| prudvi|
+---+----+-------+

我用这个做什么DataFrame就是按年龄分组，按id排序，过滤所有年龄组中学生人数超过1人的。我使用以下脚本：

import sqlContext.implicits._

val df = sqlContext.read.json("students.json")

import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions._

val arrLen = udf {a: Seq[Row] => a.length > 1 }

val mergedDF = df.withColumn("newCol", collect_set(struct("age","id","name")).over(Window.partitionBy("age").orderBy("id"))).select("newCol","age")

val filterd = mergedDF.filter(arrLen(col("newCol")))

现在当前的结果是：

[WrappedArray([28,1203,amith], [28,1202,krishna]),28]
[WrappedArray([25,1201,satish], [25,1205,mendy]),25]
[WrappedArray([23,1204,javed], [23,1207,prudvi]),23]

我现在想要的是将这两个学生行合并到WrappedArray合而为一，例如id第一个学生和name第二个学生的。

为了实现这一点，我编写了以下函数：

def PrintOne(List : Seq[Row], age : String):Row  ={ 
      val studentsDetails = Array(age, List(0).getAs[String]("id"), List(1).getAs[String]("name")) 
      val mergedStudent= new GenericRowWithSchema(studentsDetails .toArray,List(0).schema)

      mergedStudent
    }

我知道这个函数可以解决问题，因为当我使用 foreach 测试它时，它会打印出预期值：

filterd.foreach{x => val student = PrintOne(x.getAs[Seq[Row]](0), x.getAs[String]("age"))
                         println("merged student: "+student)
                   }

OutPut:

merged student: [28,1203,krishna]
merged student: [23,1204,prudvi]
merged student: [25,1201,mendy]

但是，当我尝试在地图内执行相同的操作来收集返回值时，问题就开始了。

如果我在没有编码器的情况下运行：

val merged = filterd.map{row => (row.getAs[String]("age") , PrintOne(row.getAs[Seq[Row]](0), row.getAs[String]("age")))}

我得到以下异常：

线程“main”中的异常 java.lang.UnsupportedOperationException：否找到 org.apache.spark.sql.Row 的编码器 - 字段（类：“org.apache.spark.sql.Row”，名称：“_2”） - 根类：“scala.Tuple2”

当我尝试生成一个Econder就我自己而言，我也失败了：

import org.apache.spark.sql.catalyst.encoders.RowEncoder
    implicit val encoder = RowEncoder(filterd.schema)

    val merged = filterd.map{row => (row.getAs[String]("age") , PrintOne(row.getAs[Seq[Row]](0), row.getAs[String]("age")))}(encoder)

类型不匹配;成立： org.apache.spark.sql.catalyst.encoders.ExpressionEncoder[org.apache.spark.sql.Row] 必需：org.apache.spark.sql.Encoder[(字符串， org.apache.spark.sql.Row)]

我怎样才能提供正确的编码器，或者更好的是避免它？

我被告知要避免使用映射+自定义函数，但我需要应用的逻辑比仅从每一行中选取一个字段更复杂。将多个字段组合起来，检查行的顺序以及值是否为空将更加重要。据我所知，只需使用自定义函数就可以解决它。

的输出map属于类型(String, Row)因此它不能使用编码RowEncoder独自的。您必须提供匹配的元组编码器：

import org.apache.spark.sql.types._
import org.apache.spark.sql.{Encoder, Encoders}
import org.apache.spark.sql.catalyst.encoders.RowEncoder

val encoder = Encoders.tuple(
  Encoders.STRING,
  RowEncoder(
    // The same as df.schema in your case
    StructType(Seq(
      StructField("age", StringType), 
      StructField("id", StringType),
      StructField("name", StringType)))))

filterd.map{row => (
  row.getAs[String]("age"),
  PrintOne(row.getAs[Seq[Row]](0), row.getAs[String]("age")))
}(encoder)

总的来说，这种方法看起来像是一种反模式。如果你想使用更实用的风格，你应该避免Dataset[Row]:

case class Person(age: String, id: String, name: String)

filterd.as[(Seq[Person], String)].map { 
  case (people, age)  => (age, (age, people(0).id, people(1).name))
}

or udf.

另请注意o.a.s.sql.catalyst包，包括GenericRowWithSchema，主要供内部使用。除非有必要，否则最好o.a.s.sql.Row.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

Spark - 如何组合/合并 Seq[Row] 中 Dataframe 中的元素以生成 Row 的相关文章

Java / Scala Future 由回调驱动

简洁版本我怎样才能创建一个Promise
Scala 集合不一致

为什么 Scala Collections API 中的集合和列表之间缺乏一致性例如有不可变的 Set 但也有可变的 Set 如果我想使用后者我可以简单地这样做 val set Set A set new A 但是本身不存在可变列表
Scala：具有复杂结构的树插入尾递归

我正在 scala 中创建自定义对象树并且我的插入方法引发堆栈溢出因为它不是尾递归但是我不太清楚如何使其尾递归我见过使用累加器变量的相关示例但它们要么是只能相乘和覆盖的整数之类的东西要么是我在适应树时遇到困难的列表这是我
宏：knownDirectSubclasses 被嵌套类型破坏？

我有一个宏它枚举密封特征的直接子类型 import scala reflect macros Context import language experimental macros object Checker def apply A U
使用原始类型模拟案例类

考虑以下类型结构 trait HasId T def id T case class Entity id Long extends HasId Long 比方说我们想在一些测试中模拟实体类 val entityMock mock Enti
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
Source.getLines 中的默认参数错误 (Scala 2.8.0 RC1)

假设我运行 Scala 2 8 0 RC1 以下 scala 代码应该打印出文件 c hello txt 的内容 for line lt Source fromPath c hello txt getLines println line 但
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
Play Framework 2.3 (Scala) 中的自定义 JSON 验证约束

我设法使用自定义约束实现表单验证但现在我想对 JSON 数据执行相同的操作如何将自定义验证规则应用于 JSON 解析器示例客户端的 POST 请求包含用户名 username 我不仅要确保该参数是非空文本而且还要确保该用户确实存在
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Scala 模式匹配变量绑定

为什么提取器返回时不能以样式绑定变量Option
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
Scala 特性：val/def 和 require

下面的代码抛出IllegalArgumentException trait T val x Long require x gt 0 object T extends App val y new T val x 42L 而以下情况则不然 tr
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
分析 sbt 构建

我的 sbt 构建需要很长时间它又大又复杂很难知道从哪里开始清理看起来 sbt 保留了很多关于构建结构的元数据包括相互依赖关系命名任务范围界定等有了所有这些元数据似乎很容易跳入并测量每个不同任务及其范围花费的时间在代码
在 Scala 中，使用“_”和使用命名标识符有什么区别？

为什么当我尝试使用时会出现错误而不是使用命名标识符 scala gt res0 res25 List Int List 1 2 3 4 5 scala gt res0 map gt item toString

随机推荐

python内置函数与魔术函数和重写[重复]

这个问题在这里已经有答案了可能的重复元类上的拦截运算符查找如何在新样式类中拦截对 python 神奇方法的调用考虑以下代码 class ClassA object def getattribute self item print
SEO 友好的 URL（带有 .htaccess）

我想向我的网站添加友好的 URL 但我有一个问题我从未使用过 htaccess My link https example com index php page users 我想要一个像这样的网址 https example com pa
将 C .obj 文件链接到 Delphi 应用程序，解决标准 C 依赖关系

我使用 BCC 5 5 命令行编译器编译了 libxml2 现在我有很多 obj 文件我想将它们链接到我的 Delphi 应用程序中不幸的是我收到很多不满意的前向或外部声明错误指向标准 C 库函数如 memcpy open r
使用 Phonegap，如何查看剩余的可用磁盘空间？

我有一个 Phonegap 应用程序它使用文件系统 API 将文件保存在设备文件系统上启动时应用程序需要一些文件系统空间window requestFileSystem但运行时可以下载其他文件并且我无法预测所需的磁盘空间总量其想法
使用 Wifi 时可以查找当前位置，但使用 GPS 时会失败

我开发了一个应用程序来使用 GPS 查找用户的位置这并没有错误它使用 Wifi 正确找到位置但在 GPS 模式下它不返回任何值我在清单中添加了所需的权限并且 GPS 已打开有人可以告诉我如何使用 GPS 获取位置吗我在这里包含
在windows项目中调用asp.net webmethod

我怎么称呼这个WebMethod在 Windows 应用程序中的 ASP NET 中我尝试过使用 Web 请求 post 方法但它返回的是 ASP NET 页面的 XML 这是我的网络方法 WebMethod public static
将数据传递给指令？

In the docs它指出您可以将各种参数传递给指令所以我想传入一个值 v my directive test 但我收到错误 Property or method test is not defined on the instance
用于从串行通信写入和读取数据的 Shell 脚本

我正在制作一个简单的 shell 脚本来向串行设备写入和读取数据我在终端使用这些命令它们响应正确为了写我正在使用 echo en xAA x04 xC2 gt dev ttyUSB0 要阅读我正在使用 read cat v lt d
验证 ImageMagick 安装

我的虚拟主机说 ImageMagic 已预安装在服务器上我在 phpinfo 的输出中快速搜索了 ImageMagick 但什么也没找到我无法在服务器中使用 SSH 那么 PHP 中有没有办法可以验证安装这是尽可能简短而甜蜜的 if
未正确应用枢轴过滤条件

我一直在 Google Apps 脚本中使用 Google Sheets API 我密切关注他们提供的例子但看到在他们的示例中数据透视表对象缺少标准字段指定过滤器为了考虑过滤器我添加了 criteria 0 visibleValu
从 iPhone 上的 Facebook Connect 应用程序开始

我想制作一个按钮以便用户能够连接并加入我在 Facebook 中创建的群组这可能吗脸书连接有教程什么的吗您可以尝试查看新更新的适用于 iOS 的 Facebook Connect SDK已针对 Graph API 进行更新您还可
将 android-support-v4.jar 添加到 lib 的 Android 应用程序在尝试在 IntelliJ Idea 中使用 proguard 登录时面临错误

我正在尝试签署我的申请如果不检查混淆器登录过程就可以正常进行但如果我使用混淆器我会得到以下堆栈跟踪我尝试添加 dontwarn CompatHoneycomb keep class android support v4 dontw
Django 使用 TimedRotatingFileHandler 记录 PermissionError

我试图让 Django 每 10 分钟创建并轮换新日志TimedRotatingFileHandler 我的设置如下 LOGGING version 1 disable existing loggers False handlers fil
mySql 中是否有类似于 split() 方法的东西？

我正在编写一个存储过程该过程将由标记分隔的字符串作为参数然后在该过程中为该字符串中的每个项目运行 while 循环我在 mysql 文档中没有看到任何可以完成此任务的内容有没有办法做到这一点不幸的是 mysql 不允许函数返回数组
当 UI 线程被阻塞时，在后台线程中执行 WebRequest

为什么下面的代码在 5 秒后执行 Web 请求而 UI 线程不再被阻塞 Thread Sleep位于 UI 线程中而 WebRequest 的实例化和调用都发生在 ThreadPool 的线程内 Loaded sender args g
如何在 EXE 中直接嵌入 DirectShow Push Source 过滤器？

我有一个 Delphi 6 程序它通过套接字从外部程序接收音频现在我想将该音频提供给我创建的 DirectShow 过滤器图表该图表将该音频路由到 PC 上的不同输出过滤器我正在使用 DSPACK 进行 DirectShow 过滤
如何在 Beanshell 中使用或转义 java 8 Lambda 表达式

我正在开发一个产品在 Tomcat 中运行的 Sailpoint IdentityIQ 它使用 Beanshell env 进行产品自定义挂钩我想编写一些代码来解析大型 csv 文件并希望利用 Java 8 Streams 但我面临
如何在 WPF 中的模板化 TabItem 上获取关闭按钮？

我有一个TabControl哪里的TabItems are DataTemplat编辑该模板似乎工作正常因为我想在TabItem显示正确我不确定如何让 x 出现在TabItem所以我可以关闭每个选项卡因为它们是通过模板动态生成的作
Singleton程序中Static语句的使用及流程

我知道关于单例模式有很多问题但在这里我想了解有关输出的信息它也可能涵盖静态在 Java 中的工作原理 public class Singleton private static Singleton currentSingleton
Spark - 如何组合/合并 Seq[Row] 中 Dataframe 中的元素以生成 Row

首先我想说我被迫使用 Spark 1 6 我正在生成一个DataFrame来自这样的 JSON 文件 id 1201 name satish age 25 id 1202 name krishna age 28 id 1203 name a

Spark - 如何组合/合并 Seq[Row] 中 Dataframe 中的元素以生成 Row

Spark - 如何组合/合并 Seq[Row] 中 Dataframe 中的元素以生成 Row 的相关文章

随机推荐

热门标签