Spark Dataframe 中的聚合数组类型

2024-02-29

我有一个 DataFrame 命令：

+-----------------+-----------+--------------+
|               Id|    Order  |        Gender|
+-----------------+-----------+--------------+
|             1622|[101330001]|          Male|
|             1622|   [147678]|          Male|
|             3837|  [1710544]|          Male|
+-----------------+-----------+--------------+

我想对 ID 和性别进行分组，然后聚合订单。我正在使用 org.apache.spark.sql.functions 包，代码如下：

DataFrame group = orders.withColumn("orders", col("order"))
                .groupBy(col("Id"), col("Gender"))
                .agg(collect_list("products"));

但是，由于列 Order 的类型为数组，因此我收到此异常，因为它需要原始类型：

User class threw exception: org.apache.spark.sql.AnalysisException: No handler for Hive udf class org.apache.hadoop.hive.ql.udf.generic.GenericUDAFCollectList because: Only primitive type arguments are accepted but array<string> was passed as parameter 1

我查看了包，有数组的排序函数，但没有聚合函数。知道怎么做吗？谢谢。

在这种情况下，您可以定义自己的函数并将其注册为 UDF

val userDefinedFunction = ???
val udfFunctionName = udf[U,T](userDefinedFunction)

然后，而不是然后将该列传递到该函数内，以便将其转换为原始类型，然后将其传递到 with Columns 方法中。

像这样的事情：

val dataF:(Array[Int])=>Int=_.head

val dataUDF=udf[Int,Array[Int]](dataF)


DataFrame group = orders.withColumn("orders", dataUDF(col("order")))
                .groupBy(col("Id"), col("Gender"))
                .agg(collect_list("products"));

我希望它有效！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachesparksql

Spark Dataframe 中的聚合数组类型的相关文章

Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
Pyspark dataframe：如何按组应用 scipy.optimize 函数

我有一段运行良好的代码但使用 pandas 数据帧 groupby 处理但是由于文件很大 gt 7000 万组我需要转换代码以使用 PYSPARK 数据框架这是使用 pandas dataframe 和小示例数据的原始代码 imp
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
使用 Spark SQL 从 ISO 8601 解析日期时间

想做this https stackoverflow com questions 9321809 format date in mysql select as iso 8601但反之亦然 My dates 采用这种格式YYYY MM DDT
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
Spark 2.1无法在CSV上写入Vector字段

当我将代码从 Spark 2 0 迁移到 2 1 时我偶然发现了与 Dataframe 保存相关的问题这是代码 import org apache spark sql types import org apache spark ml l
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col

随机推荐

连接 MongoDB Atlas 与 Mongoose 时出现超时错误

我正在尝试使用 mongoose 连接到 MongoDB Atlas 上的数据库但每次它都会给我以下错误 node 2327 UnhandledPromiseRejectionWarning Error queryTxt ETIMEOUT
密码和不同类型的加密

我知道我知道类似的问题已经被问过数百万次了但由于大多数问题都有不同的风格所以我有自己的风格目前我正在开发一个网站该网站打算在全国范围内推出因此需要对用户系统进行某种保护我最近读了很多关于密码加密散列加盐凡是你能想到的内
ios：使用 GLEssentials 示例代码显示简单的 3D 模型

我的目标是显示一个简单的 3D 模型并在其上应用纹理我已经下载了 GLEssentialsios示例项目 http developer apple com library ios samplecode GLEssentials Intro
删除 SimpleForm 生成的选择字段的空白选项

我有这段代码 f input category as gt select label gt false collection gt Choices Categories Choices Categories 只是 key gt value
使用 TCP 的模拟器连接

又嗨了我正在尝试连接在同一台 PC 上作为服务器和客户端运行的两个模拟器问题是其中一个位于虚拟机内每个模拟器应该使用什么地址才能在它们之间进行连接我正在使用基于 TCP 的连接第一个模拟器在 Windows 7 上运行 Vmwar
适用于高带宽应用的 WebRTC 数据通道

我想通过 WebRTC 数据通道发送单向流数据并且正在寻找最佳配置选项高带宽低延迟抖动以及其他人在此类应用程序中的预期比特率的经验我的测试程序发送 2k 的块使用 2k 的 bufferedAmountLowThreshold
找不到 ID 为“xxx”的 UpdatePanel。如果它是动态更新的，那么它必须位于另一个 UpdatePanel 内

我有一个带有 Ajax 选项卡控件的页面其中一个选项卡中有一个 Web 控件它是 Telerik RadGrid 其中编辑表单指向另一个 Web 控件该编辑表单还包含 Ajax 选项卡并且在其中一个选项卡上还有另一个 Web 控件
Matlab 中的曲面图

我正在尝试用对角矩阵绘制曲面我正在尝试绘制的方程是 f x TDx x 是 2 x 1 向量 D 是 2 x 2 矩阵这是到目前为止的内容但我不断收到错误 x linspace 10 10 y linspace 10 10 X Y m
如何将推文居中？

Twitter 提供了嵌入推文的代码例如我有 blockquote class twitter tweet p NoSQL space gradually becoming SlowSQL space p mdash Big Data B
为什么我的 TreeSet 不添加第一个元素之外的任何内容？

我有几个形式的数组 private static String patientNames John Lennon Paul McCartney George Harrison Ringo Starr 然后我制作一个像这样的 TreeSet
R knit：可以以编程方式修改块标签吗？

我正在尝试使用 knit 生成一份报告该报告对数据集的不同子集执行相同的分析集该项目包含两个 Rmd 文件第一个文件是设置工作区和文档的主文档第二个文件仅包含执行分析并生成相关图形的块我想做的是编织主文件然后为每个数据子集调用第
Cin 对象返回值 C++ [重复]

这个问题在这里已经有答案了我想问一下cin的返回值是多少我知道它是 ifstream 对象并且当它在表达式中使用时如if cin 实际上有一个函数被调用我想知道它实际上是什么函数 cin fail 或 cin good 或是if
SQL Server 2000 中的交叉表查询

我希望以前有人尝试过这一点并且在我进一步之前可以得到一些建议我希望在 sql server 2000 中生成类似于交叉表查询的内容我有一个类似于以下的表结构 Item Item Parameter Parameter id item
在我的 iOS 应用程序中实施新的 Google 地图 SDK

更新我刚刚收到一封来自 Google 的有关新 Google 地图 iOS SDK 的电子邮件看来一切都已经解决了我已成功为我的应用程序创建新的 API 密钥还没有测试过但看起来是正确的他们派我来this https devel
我应该何时以及如何使用 ThreadLocal 变量？

我什么时候应该使用ThreadLocal https docs oracle com javase 8 docs api java lang ThreadLocal html多变的它是如何使用的一种可能也是常见的用途是当您有一些非线
PHP cURL：获取重定向目标，而不跟随它

curl getinfo 函数返回大量有关 HTTP 请求结果的元数据但是由于某种原因它不包含我目前想要的信息如果请求返回 HTTP 重定向代码则该信息是目标 URL 我没有使用 CURLOPT FOLLOWLOCATION 因为
在 React Native 中使用 mobx 进行状态存储时无法导航到不同的导航菜单

我对 Mobx 有点陌生一般来说我的反应是原生的我正在尝试使用 mobx 在导航堆栈中实现状态值更改以便当单击登录按钮时状态中的值会发生更改并且导航值参数令牌会更新为 mobx 存储中的最新值但这不起作用我收到错误错误任何导
突出显示段落中的关键字

我需要突出显示段落中的关键字就像谷歌在其搜索结果中所做的那样假设我有一个包含博客文章的 MySQL 数据库当用户搜索某个关键字时我希望返回包含这些关键字的帖子但只显示帖子的一部分包含搜索关键字的段落并突出显示这些关键字我的计
C、没有 malloc 的 fork 泄漏

我试图了解内存分配如何在 fork 上工作即使是静态或动态分配我很难理解一些泄漏如下所示通过这个程序 include
Spark Dataframe 中的聚合数组类型

我有一个 DataFrame 命令 Id Order Gender 1622 101330001 Male 1622 147678 Male 3837 1710544 Male 我想对 ID 和性

Spark Dataframe 中的聚合数组类型

Spark Dataframe 中的聚合数组类型 的相关文章

随机推荐

热门标签

Spark Dataframe 中的聚合数组类型的相关文章