将地图/字典的 Spark Dataframe 列扁平化为多列

2024-02-26

我们有一个DataFrame看起来像这样：

DataFrame[event: string, properties: map<string,string>]

请注意，有两列：event and properties。我们如何拆分或压平properties根据中的键值将列分成多列map?

我注意到我可以做这样的事情：

newDf = df.withColumn("foo", col("properties")["foo"])

从而产生一个Dataframe of

DataFrame[event: string, properties: map<string,string>, foo: String]

但随后我就必须对所有键一一进行这些操作。有没有办法自动完成所有这些？例如，如果有foo, bar, baz作为中的键properties，我们可以压平map:

DataFrame[event: string, foo: String, bar: String, baz: String]

您可以使用explode()功能 - 它通过创建两个附加列来展平地图 -key and value对于每个条目：

>>> df.printSchema()
root
 |-- event: string (nullable = true)
 |-- properties: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)

>>> df.select('event', explode('properties')).printSchema()
root
 |-- event: string (nullable = true)
 |-- key: string (nullable = false)
 |-- value: string (nullable = true)

如果您有一列具有可以分组依据的唯一值，则可以使用数据透视表。例如：

df.withColumn('id', monotonically_increasing_id()) \
    .select('id', 'event', explode('properties')) \
    .groupBy('id', 'event').pivot('key').agg(first('value'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

PySpark

将地图/字典的 Spark Dataframe 列扁平化为多列的相关文章

使用 psycopg2 在 python 中执行查询时出现“编程错误：语法错误位于或附近”

我正在运行 Python v 2 7 和 psycopg2 v 2 5 我有一个 postgresql 数据库函数它将 SQL 查询作为文本字段返回我使用以下代码来调用该函数并从文本字段中提取查询 cur2 execute SELECT
Django 代理模型的继承和多态性

我正在开发一个我没有启动的 Django 项目我面临着一个问题遗产我有一个大模型在示例中简化称为MyModel这应该代表不同种类的物品的所有实例对象MyModel应该具有相同的字段但方法的行为根据项目类型的不同而有很大差异到目
将 saxon 与 python 结合使用

我需要使用 python 处理 XSLT 目前我正在使用仅支持 XSLT 1 的 lxml 现在我需要处理 XSLT 2 有没有办法将 saxon XSLT 处理器与 python 一起使用有两种可能的方法设置一个 HTTP 服务接受
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di

随机推荐

如何更新 npm 模块，忽略 git 存储库

我分叉了一个 npm 模块现在它是一个 git 存储库所以我的 package json dependencies some module git https github com my name some module git 分叉的
Git 存储库内部格式解释

有没有关于 Git 如何在其存储库中存储文件的文档我尝试在互联网上搜索但没有可用的结果也许我使用了不正确的查询或者也许这是一个伟大的秘密 Git 存储库内部格式让我解释一下为什么我需要这些火箭科学信息我正在使用 C 从存储库中
使用 ruby 迭代 yaml 数组

我申请了YAML load file到我的示例文件 languages name English iso 639 en native name English region UK US name Klingon iso 639 tlh na
Delphi 2009 中如何重定向控制台（stdin、stderr）？

我在互联网上尝试了几个示例但它们都不起作用脚本未执行也许是因为适用于 Delphi 2009 之前的 unicode 我需要运行一些 python 脚本并向它们传递参数例如 python Plugins RunPlugin py a
最有用的软件开发指标是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
通过使用一列作为新级别将列更改为多索引

我有一个数据框 df pd DataFrame from dict Close 1 14 03 3 14 02 0 79 88 2 80 31 High 1 14 3 3 14 33 0 80 22 2 81 19 Low 1 14 03
在 Node.js 中对 S3 上传进行存根

我该如何在 Node js 中存根 S3 上传为了获得洞察力我使用 Mocha 进行测试使用 Sinon 进行存根但我愿意改变任何东西我有一个导出执行上传功能的文件它看起来像这样 var AWS require aws sdk
ASP.NET MVC 将模型与文件一起*传递回控制器

好吧我已经研究了几个小时了但我根本找不到解决方案我想从我的用户那里获取一些数据首先我使用控制器创建一个接收模型的视图 public ViewResult CreateArticle Article newArticle new A
为什么这个 python 循环会泄漏内存？

我正在编写一个自定义文件系统爬虫它通过 sys stdin 传递数百万个 glob 来进行处理我发现运行脚本时其内存使用量随着时间的推移而大幅增加整个过程几乎停止了我在下面写了一个最小的案例来说明问题我是否做错了什么或者我在
在 angularJS 中单击一键后禁用提交按钮

我想单击一下后禁用按钮 Code
熊猫“DataFrameGroupBy”和“SeriesGroupBy”

我承认我不是 Python 专家但我仍然发现与 Pandas 打交道DataFrameGroupBy and SeriesGroupBy物体异常违反直觉我有 R 背景我有下面的数据框 import pandas as pd impor
JAVA中将科学记数法的数字转换为十进制数

我有一个问题如果一个数字的小数点前有 8 位或更多位则该数字将以科学计数法显示有没有一种简单的方法可以通过库或其他方式将此数字转换为十进制我开始创建一个手动方法来解析它但它似乎过于复杂任何帮助将不胜感激 input exampl
Windows 上的 ExecJS::RuntimeError 尝试遵循 rubytutorial

UPDATE Colin https stackoverflow com users 1017768 colin r建议删除行 require tree 已解决该问题我浪费了两天多的时间试图遵循每一条建议并解决我的问题我正在尝试遵循ht
有没有办法让 pip 在更新后的 requests.txt 中仅安装新的依赖项

pip install upgrade r requirements txt 对所有以前安装的依赖项重复安装过程当我有一个巨大的依赖项列表比如超过 30 个时这可能会很痛苦是否有办法检查更新后的requirements txt并仅
删除数组中的空值元素

Array 0 gt 0 value is int 0 which isn t empty value 1 gt this is empty value 2 gt this is empty value 我想让上面的数组如下有人可以帮助我
使用自定义 url/ 页面覆盖 Django-allauth 登录/注册 url

我已经将 django allauth 配置为通过 Facebook Twitter 和 Google 登录但是 django allauth 仅接受登录请求 accounts login 仅在以下位置提出注册请求 accounts si
如何在 Haskell 中的子类定义中定义默认实现？

我是 Haskell 的新人以下是我的问题给定这个类 class MyClass a where foo a gt a 然后我有一个更具体的子类 class MyClass a gt SubClass a where foo param
何时使用 MongoDB [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在编写一个不一定需要的应用程序扩展能力因为它一开始不会收集大量数据但是如果我幸运的话我可能会走上这条路我将在同一个机器上运行我的网络
如何将C++变量数据放入system()函数中

如何将 C 变量数据放入 system 函数中看下面的代码 include
将地图/字典的 Spark Dataframe 列扁平化为多列

我们有一个DataFrame看起来像这样 DataFrame event string properties map

将地图/字典的 Spark Dataframe 列扁平化为多列

将地图/字典的 Spark Dataframe 列扁平化为多列 的相关文章

随机推荐

热门标签

将地图/字典的 Spark Dataframe 列扁平化为多列的相关文章