如何通过一个数组列展平 pySpark 数据框？ [复制]

2023-12-23

我有一个像这样的火花数据框：

+------+--------+--------------+--------------------+
|   dbn|    boro|total_students|                sBus|
+------+--------+--------------+--------------------+
|17K548|Brooklyn|           399|[B41, B43, B44-SB...|
|09X543|   Bronx|           378|[Bx13, Bx15, Bx17...|
|09X327|   Bronx|           543|[Bx1, Bx11, Bx13,...|
+------+--------+--------------+--------------------+

如何将其展平，以便为 sBus 中的每个元素复制每一行，并且 iBus 将成为普通字符串列？

所以结果会是这样的：

+------+--------+--------------+--------------------+
|   dbn|    boro|total_students|                sBus|
+------+--------+--------------+--------------------+
|17K548|Brooklyn|           399| B41                |
|17K548|Brooklyn|           399| B43                |
|17K548|Brooklyn|           399| B44-SB             |
+------+--------+--------------+--------------------+

等等...

我想不出一种方法可以在不将其变成 RDD 的情况下做到这一点。

# convert df to rdd
rdd = df.rdd

def extract(row, key):
    """Takes dictionary and key, returns tuple of (dict w/o key, dict[key])."""
    _dict = row.asDict()
    _list = _dict[key]
    del _dict[key]
    return (_dict, _list)


def add_to_dict(_dict, key, value):
    _dict[key] = value
    return _dict


# preserve rest of values in key, put list to flatten in value
rdd = rdd.map(lambda x: extract(x, 'sBus'))
# make a row for each item in value
rdd = rdd.flatMapValues(lambda x: x)
# add flattened value back into dictionary
rdd = rdd.map(lambda x: add_to_dict(x[0], 'sBus', x[1]))
# convert back to dataframe
df = sqlContext.createDataFrame(rdd)

df.show()

棘手的部分是将其他列与新展平的值保持在一起。我通过将每一行映射到一个元组来做到这一点(dict of other columns, list to flatten)然后打电话flatMapValues http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.flatMapValues。这会将值列表的每个元素拆分为单独的行，但保留附加的键，即

(key, ['A', 'B', 'C'])

becomes

(key, 'A')
(key, 'B')
(key, 'C')

然后，我将展平的值移回到其他列的字典中，并将其重新转换回 DataFrame。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

如何通过一个数组列展平 pySpark 数据框？ [复制] 的相关文章

Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

如何在反应应用程序中令牌过期时注销用户

我正在开发一个使用 React 作为前端的应用程序React apollo graphql用于我的 API 调用我在用react hooks即在 React 16 8 中我在做什么我创建了一个auth js当用户登录时我存储我的值的文
如何告诉plugman我想要更新一个可能不存在的文件？

我编写了一个 Android PhoneGap 3 插件它启动一个 Activity 该 Activity 是插件的一部分并使用本机 Android UI 现在我想遵循插件规范 http docs phonegap com en 3 0
Hubot Slack 机器人可以存储会话吗

我正在尝试实现简单的松弛机器人所以我已经配置了hubot这将从以下位置获取输入slack并将其传递给我的网络应用程序 django app 并且它将采取任何响应django app并会回复松弛在此过程中我尝试将会话存储在django
使用任务库的 Amazon S3 异步上传

我有一个将文件上传到 Amazon S3 的 Windows 表单我尝试实现内置的异步方法但似乎工作不正常所以我认为最好的方法是实现 System Threading Tasks 我的实际代码如下所示 public void Uplo
删除 JAX-WS SOAP 响应中的元素

我有以下 JAX WS 方法 public School createUpdateSchool Perks reqeustData DataHandler contentData 在我的 SOAP 响应中
我可以免受 SQL 注入攻击吗？

我使用一个简单的 cms 作为我的网站的后端我可以在其中更新新闻等我希望避免 SQL 注入所以我想知道这段代码是否被认为是安全的或者我是否可以采取一些措施使其更安全 if POST if isset POST title and i
C++如何从包含的类中调用父类方法？

我试图从包含的对象调用父类方法但以下代码没有成功标准的做法是什么我四处搜索这似乎适用于继承的对象但不适用于包含的对象甚至将其称为父类是否正确或者它被称为 Owner 类 class Parent private Child
将两列 Pandas 数据框转换为以第一列作为键的列表字典

我有以下数据框 import pandas as pd df pd DataFrame ClusterID 1 2 2 1 3 Genes foo qux bar cux fii 看起来像这样 ClusterID Genes 0 1 foo
C# 读取包含不同编码字符的 XML 时出现问题

我在读取 XML 时遇到了问题解决办法已经找到了但是还有一些问题不正确的 XML 文件采用 UTF 8 编码并且在其标头中具有适当的标记但它还包含一个以 UTF 16 编码的字符此代码用于读取 XML 文件以验证其内容 var
选择并聚焦已存在的窗口

我经营一个电子商务网站当客户提交订单时我需要让这个弹出窗口正常工作理想情况下当订单成功页面加载时会出现弹出窗口但弹出窗口拦截器会阻止这种情况相反当用户单击确认订单按钮时我会生成弹出窗口但这会掩盖结帐在订单完成之前重定向
在程序文件名中使用带有空格的 Runtime.exec 时出现“无法运行程序”

我使用下面的代码打开 sample html 文件 String filename C sample html String browser C Program Files x86 Google Chrome Application chr
FFmpeg 在音频叠加前后创建了一个小的可听见的 dropout_transition，我该如何删除它？

file1 wav 长 25 分钟 file2 wav 的长度为 20 秒 File2 wav 延迟到 file1 wav 的末尾并且两者混合在一起延迟效果完美并覆盖到 25 分钟 file1 wav 文件末尾的正确位置我的问题
石英触发器不会立即触发

我想使用 jdbc 数据存储通过quartz调度程序立即执行该作业然而即使我使用 now 或调用 triggerJob 进行调度调度和触发触发之间也会有 20 30 秒的延迟我尝试用一个简单的触发器来执行该作业 JobKey ke
获取集合 mongodb 内所有文档中多个元素的频率

这就是我的问题我是 mongodb 的新手并且有一个集合其中的文档保存如下 id oid 60626db173b4ca321c02ee3e year 2021 name Book 1 authors Joe B Jessica K c
广度优先或深度优先搜索

我知道这个算法是如何工作的但无法决定何时使用哪种算法是否有一些指导方针其中一个比其他人表现更好或有任何考虑因素非常感谢如果您想找到步数最短的解决方案或者您的树具有无限高度或非常大您应该首先使用广度如果您有一棵有限树并且想要
MySQL 错误“空字符串作为 ! 字符的参数”

我有一个非常简单的查询 select from tablename where keyvar is not null order by keyvar 该查询之前有效但由于某种原因现在我收到错误错误格式化 SQL 查询时出错作为参数给
如何让 QFileDialog 提示覆盖？

我有一个 QDialog 可以像这样打开 QFileDialog QFileDialog fd this fd setFileMode QFileDialog AnyFile if fd exec save data to a file 很
如何统计具有相同属性值的元素

我确信这是一件容易的事但我只是只见树木不见森林我有一个如下所示的 XML
对于 Windows exe/二进制文件，证书、签名和指纹之间有什么区别？

我试图了解 Windows 可执行文件和二进制文件上下文中签名指纹和证书之间的区别在发布这个问题之前我在互联网上查了一下但我没有得到简明的区分也许我对这三个术语的理解一开始就不清楚有人可以帮我解决这个问题吗 A 证书是通常使用 X
如何通过一个数组列展平 pySpark 数据框？ [复制]

这个问题在这里已经有答案了我有一个像这样的火花数据框 dbn boro total students sBus 17K548 Brooklyn 399 B41 B43 B44 SB 09X543 Bronx 378 Bx13 Bx15 B

如何通过一个数组列展平 pySpark 数据框？ [复制]

如何通过一个数组列展平 pySpark 数据框？ [复制] 的相关文章

随机推荐

热门标签