如何将 UDF 中的结构或类数组返回到数据帧列值中？

2024-05-20

d = [{'ID': '1', 'pID': 1000, 'startTime':'2018.07.02T03:34:20', 'endTime':'2018.07.03T02:40:20'}, {'ID': '1', 'pID': 1000, 'startTime':'2018.07.02T03:45:20', 'endTime':'2018.07.03T02:50:20'}, {'ID': '2', 'pID': 2000, 'startTime':'2018.07.02T03:34:20', 'endTime':'2018.07.03T02:40:20'}, {'ID': '2', 'pID': 2000, 'startTime':'2018.07.02T03:45:20', 'endTime':'2018.07.03T02:50:20'}]

df = spark.createDataFrame(d)

Dates = namedtuple("Dates", "startTime endTime")


def MergeAdjacentUsage(timeSets):
  DatesArray = []
  for times in timeSets:
    DatesArray.append(Dates(startTime=times.startTime, endTime=times.endTime))
  return DatesArray


MergeAdjacentUsages = udf(MergeAdjacentUsage,ArrayType(Dates()))

df1=df.groupBy(['ID','pID']).agg(MergeAdjacentUsages(F.collect_list(struct('startTime','endTime'))).alias("Times"))

display(df1)

我想要的只是将列值设置为 UDF 返回的结构数组。它给我的错误是：

类型错误：new() 正好需要 3 个参数（给定 1 个）

类型错误回溯（最近调用最后）在（） 22 返回日期数组 23 ---> 24 MergeAdjacentUsages = udf(MergeAdjacentUsage,ArrayType(Dates())) 25 26 df1=df.groupBy(['ID','pID']).agg(MergeAdjacentUsages(F.collect_list(struct('startTime','endTime'))).alias("时间"))

任何帮助、想法或提示将不胜感激。

pyspark 不允许用户定义类对象作为数据框列类型。相反，我们需要创建StructType它可以类似于Python中的类/命名元组来使用。

例如：

from pyspark.sql.types import *
from pyspark.sql.functions import udf
from pyspark.sql import functions as F
# from pyspark.sql.functions import *

d = [{'ID': '1', 'pID': 1000, 'startTime': '2018.07.02T03:34:20', 'endTime': '2018.07.03T02:40:20'},
     {'ID': '1', 'pID': 1000, 'startTime': '2018.07.02T03:45:20', 'endTime': '2018.07.03T02:50:20'},
     {'ID': '2', 'pID': 2000, 'startTime': '2018.07.02T03:34:20', 'endTime': '2018.07.03T02:40:20'},
     {'ID': '2', 'pID': 2000, 'startTime': '2018.07.02T03:45:20', 'endTime': '2018.07.03T02:50:20'}]

df = spark.createDataFrame(d)

# Dates = namedtuple("Dates", "startTime endTime")

schema = ArrayType(StructType([
    StructField("startTime", StringType(), False),
    StructField("endTime", StringType(), False)
]))


MergeAdjacentUsages = udf(lambda xs: xs, schema)

df1 = df.groupBy(['ID', 'pID']).agg(MergeAdjacentUsages(
    F.collect_list(F.struct('startTime', 'endTime'))).alias("Times"))
df1.show(truncate=False)

+---+----+----------------------------------------------------------------------------------------+
|ID |pID |Times                                                                                   |
+---+----+----------------------------------------------------------------------------------------+
|2  |2000|[[2018.07.02T03:34:20, 2018.07.03T02:40:20], [2018.07.02T03:45:20, 2018.07.03T02:50:20]]|
|1  |1000|[[2018.07.02T03:34:20, 2018.07.03T02:40:20], [2018.07.02T03:45:20, 2018.07.03T02:50:20]]|
+---+----+----------------------------------------------------------------------------------------+

希望这可以帮助！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Arrays

DataFrame

struct

PySpark

userdefinedfunctions

如何将 UDF 中的结构或类数组返回到数据帧列值中？的相关文章

删除近排序数组中未排序/离群元素

给定一个像这样的数组 15 14 12 3 10 4 2 1 我如何确定哪些元素乱序并删除它们在本例中为数字 3 我不想对列表进行排序而是检测异常值并将其删除另一个例子 13 12 4 9 8 6 7 3 2 我希望能够删除 4 和
查找c中结构元素的偏移量

struct a struct b int i float j x struct c int k float l y z 谁能解释一下如何找到偏移量int k这样我们就可以找到地址int i Use offsetof 找到从开始处的偏移量z
如何从 appsettings.json 文件中的对象数组读取值

我的 appsettings json 文件 StudentBirthdays Anne 01 11 2000 Peter 29 07 2001 Jane 15 10 2001 John Not Mentioned 我有一个单独的配置类 p
如何计算 3D 坐标的线性索引，反之亦然？

如果我有一个点 x y z 如何找到该点的线性索引 i 我的编号方案是 0 0 0 是 0 1 0 0 是 1 0 1 0 是最大 x 维度另外如果我有一个线性坐标 i 我如何找到 x y z 我似乎无法在谷歌上找到这个所有结果都充满
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
将一个列表（n 元组或列表）与另一个列表（也可以是数组）缩放的惯用 F# 方法是什么？

Given let weights 0 5 0 4 0 3 let X 2 3 4 7 3 2 5 3 6 我想要的是 wX 0 5 2 3 4 0 4 7 3 2 0 3 5 3 6 我想知道一种使用列表和数组来执行此操作的优雅方法欢迎
PHP 数组 - 如何将数组转换为对象？ [复制]

这个问题在这里已经有答案了我对 PHP 还很陌生所以请耐心等待所以我收到这个错误注意尝试在此行获取非对象的属性 echo tr td row gt last name td td row gt first name td td r
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
最好的 php DOM 2 数组函数是什么？

我想解析xml文件到目前为止我发现最好的方法是使用 DOMDocument 类示例 xml 字符串
将数组的每个元素解析为整数

我有一个字符串需要将其拆分为一个数组然后对数组的每个元素执行数学函数目前我正在做这样的事情实际上我什么也没做但这是一个非常简单的例子来解释我的问题 var stringBits theString split var resul
Swift - 如何复制包含引用类型的数组

我正在尝试复制数组及其值为什么两个数组都引用同一个变量您可以在 Playground 中尝试此操作 var view UIView view tag 1 var a UIView var b UIView a append view b
C 中的隐秘结构定义

我遇到了以下情况迷宫定义 https github com gduarte lkb blob master code stack maze h code typedef struct mazeNode int hasCheese int t
Swift：配对数组元素的最佳方法是什么

我遇到了一个需要成对迭代数组的问题最好的方法是什么或者作为替代方案将数组转换为对数组然后可以正常迭代的最佳方法是什么这是我得到的最好的这个需要output成为一个var 而且它并不是很漂亮有没有更好的办法 let inpu
通过链接导航多个对象而不重复

我正在尝试浏览一堆带有其他对象链接的对象我想从 id 1 开始并浏览每个对象有些对象会循环回到之前的对象所以我想确保每个对象只查看一次否则我会陷入无限循环我还希望能够通过链接导航来判断哪些对象无法访问我认为导航顺序并不重要这是
检查是否存在多列

是否有更复杂的方法来检查数据框df包含 2 个名为Column 1 and Column 2 if numpy all map lambda c c in df columns Column 1 Columns 2 do something
查找数据帧列表中同一列中的所有重复值并将其转换为 NULL

我有一个清单BELGIAN COAST list包含数百个数据帧 df1 df2 15 列 X 1000 行每个数据帧的最后一列称为Chemicals并包含一些字符例如Sulfate or Ammonia 但是这一列有很多行Chemic
QByteArray 到整数

正如您可能从标题中看出的那样我在转换QByteArray为一个整数 QByteArray buffer server gt read 8192 QByteArray q size buffer mid 0 2 int size q siz
PHP 数组到 JavaScript 数组

假设我在 php 中有这个数组 cities array Caracas gt array air gt array 4 3 5 Working Days Saturday sea gt array 18 3 5 Days Wednesda
PHP—array_merge_recursive() - 相同键没有数组

php a php gt data1 tag gt div classes gt 1 2 3 php gt data2 tag gt section classes gt 2 3 4 5 6 php gt result array merg
如何构建 if 语句并与各种值进行比较？

我该怎么写这个if以更好的方式声明条件 if data in 8 downto 1 x 70 or data in 8 downto 1 x 69 or data in 8 downto 1 x 72 or data in 8 downto

随机推荐

如何流式传输 OpenAI 的完成 API？

我想流式传输结果通过 OpenAI 的 API 完成 https beta openai com docs api reference completions 该文档提到使用服务器发送的事件 https developer mozilla
为什么要序列化对象需要 Serialized 属性

根据我的理解 SerializedAttribute 不提供编译时检查因为它都是在运行时完成的如果是这样那么为什么需要将类标记为可序列化呢难道序列化器不能尝试序列化一个对象然后失败吗这不就是它现在所做的吗当某些东西被标记时它会
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
我可以使用 Order by 对存储过程结果进行排序吗？

简单来说我有这样的SQL语句 EXEC xp cmdshell tasklist 我们可以使用以下命令对结果进行排序或过滤吗order by or where Thanks 我检查了 jamietre 链接这是完整的答案 Create
查找哪个程序运行另一个程序

我有一个 NAS 运行在 Redhat Linux 的有限版本上我按照指示破解了它这样我就可以访问 shell 这很有帮助我还做了一些修改其他人也做过修改除了一个问题之外它们似乎都工作得很好不知何故每隔 22 天系统就会关
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
为什么Android应用程序在发布到市场后尺寸会增加？

我最近在 Android 市场上发布了我的应用程序显示应用程序大小为 5 4MB 而实际 apk 大小为 2 8MB 为什么显示多出2MB 我应该如何限制我的应用程序大小请帮我您的应用程序大小会增加因为您使用了复制保护选项ON在发布
LinkedIn API：列出 UGC 帖子时出现服务器错误

我在尝试列出某个组织的所有 UGC 帖子时遇到服务器错误我已经按照 API 文档进行了操作 https learn microsoft com en us linkedin marketing integrations community
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
Git 的企业采用率？

最近一些同事之间进行了一场讨论在当今的软件行业中如何存在两个不同的世界面向自由软件公司的 Question Git 在企业环境中的使用情况如何您在企业环境中使用 Git 的体验如何无论如何我们在工作场所使用 git 每个人都对
Emacs如何自动完成C上包含文件的单词？

如何使 Emacs 完成 C 包含文件中的单词 include
java.lang.IllegalArgumentException：找不到片段的 id 0x1020002 (android:id/content) 的视图

我正在尝试从一个片段移动到另一个片段它在片段事务期间显示以下错误 java lang IllegalArgumentException No view found for id 0x1020002 android id content f
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
如何保持 Subversion 和远程服务器（通过 FTP）同步？

我们很难保持 Subversion 和 FTP 同步有时我们忘记提交更改并只是将它们推送到 Web 服务器我们的 svn 文件夹分散在整个 Web 服务器中有些东西存在于一个地方而不存在于另一个地方等等今天我想花点时间解决这个问题
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
如何在 phalcon 框架中同时连接多个数据库在模型类中同时使用两个而不仅仅是一个

在我的代码中我有两个数据库ABC and XYZ 我想在同一模型中使用两个数据库而不是 phalcon 中的解决方案是什么如何为此实现多个数据库连接 one
使用 Storyboard 时获取 NSManagedObjectContext

目标是获取当前的 NSManagedObjectContext 以便使用 Core Data 在 iOS 4 3 中我将 UINavigationController 的委托设置为 AppDelegate 如下所示在 AppDelega
未捕获的错误：找不到模块“jquery”

我在用Electron https github com atom electron制作桌面应用程序在我的应用程序中我正在加载一个外部站点 Atom 应用程序之外可以说http mydummysite index html http
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en

如何将 UDF 中的结构或类数组返回到数据帧列值中？

如何将 UDF 中的结构或类数组返回到数据帧列值中？ 的相关文章

随机推荐

热门标签

如何将 UDF 中的结构或类数组返回到数据帧列值中？的相关文章