如何在 Spark 中向分解结构添加列？

2023-12-09

假设我有以下数据：

{"id":1, "payload":[{"foo":1, "lol":2},{"foo":2, "lol":2}]}

我想分解有效负载并向其中添加一列，如下所示：

df = df.select('id', F.explode('payload').alias('data'))
df = df.withColumn('data.bar', F.col('data.foo') * 2)

然而，这会产生一个包含三列的数据框：

id
data
data.bar

我预计data.bar成为其中的一部分data结构...

如何向分解结构添加一列，而不是添加顶级列？

df = df.withColumn('data', f.struct(
    df['data']['foo'].alias('foo'),
   (df['data']['foo'] * 2).alias('bar')
))

这将导致：

root
 |-- id: long (nullable = true)
 |-- data: struct (nullable = false)
 |    |-- col1: long (nullable = true)
 |    |-- bar: long (nullable = true)

UPDATE:

def func(x):
    tmp = x.asDict()
    tmp['foo'] = tmp.get('foo', 0) * 100
    res = zip(*tmp.items())
    return Row(*res[0])(*res[1])

df = df.withColumn('data', f.UserDefinedFunction(func, StructType(
    [StructField('foo', StringType()), StructField('lol', StringType())]))(df['data']))

P.S.

Spark几乎不支持inplace手术。

所以每次你想做的事inplace，你需要做replace实际上。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

DataFrame

PySpark

如何在 Spark 中向分解结构添加列？的相关文章

Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
pandas 数据框列表的列表列表

我有一个列表的列表最外层列表的长度为 20 单独的类别中间列表的长度可变时间戳列表内部列表的长度为 5 分割每个时间戳例如 sTimestamps 0 5 Tue Feb 7 10 06 30 2017 Tue Feb 7 10
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
使用 pandas 删除停用词

我想从数据框的列中删除停用词列内有需要拆分的文本例如我的数据框如下所示 ID Text 1 eat launch with me 2 go outside have fun 我想应用停用词text column所以应该分开我试过这个
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
如何使用groupby将多个函数应用于Pandas中的多个列？

我有一个正常的df A pd DataFrame 1 5 2 2 4 4 3 3 1 4 2 2 5 1 4 columns A B C index 1 2 3 4 5 下列的这个食谱 https stackoverflow com que
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
使用名义变量删除 r 中的异常值

比如说我有三列 x lt c 10 1 6 50 x1 lt c 20 1 6 60 z lt c 1 2 3 4 5 6 7 8 检查 x 的异常值 bx lt boxplot x bx out 检查 x1 的异常值 bx1 lt bo
闪亮错误：参数暗示行数不同

我正在尝试开发一个简单的应用程序从 Kijiji 网站获取本地分类广告我用几乎相同的脚本制作了一个类似的应用程序但我没有收到下面描述的错误所以我不知道这个脚本出了什么问题我尝试了我能想到的一切但无法让它发挥作用的结构df数据框
Pandas DataFrame：如果列为空，则复制列的内容

我有以下带有命名列和索引的 DataFrame a a b b 1 5 NaN 9 NaN 2 NaN 3 3 NaN 3 4 NaN 1 NaN 4 NaN 9 NaN 7 数据源导致某些列标题的复制方式略有不同例如如上所述某些列标
如何向 pandas 数据框中的新列添加值？

我想在 Pandas 数据框中创建一个新的命名列将第一个值插入其中然后将另一个值添加到同一列就像是 import pandas df pandas DataFrame df New column append a df New col
如果满足 NaN 阈值，Python 将删除 DF 中的所有特征实例

Using df dropna thresh x inplace True 我可以成功删除至少缺少的行x非纳米值但因为我的 df 看起来像 2001 2002 2003 2004 bob A 123 31 4 12 bob B 41 1
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
Pandas：向量化局部范围操作（[i:i+2] 行的最大值和总和）

我希望在数据帧中的每一行的局部范围内进行计算同时避免速度缓慢for环形例如对于下面数据中的每一行我想找到未来 3 天内包括当天的最高气温以及未来 3 天内的总降雨量 Day Temperature Rain 0 30 4 1 3
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

使用 .net 正则表达式替换字符串中的文本

我尝试在 net 中使用 regexp 来查找字符串并用某些标记替换字符串例如 myString 这是我想要更改和的文本示例我如何找到带有之间标记的文本并为每个文本执行一些操作来替换它在数据库中搜索并替换任何找到的匹配项我想
Python 3.x 中的 as 命令有什么作用？

看过很多次但一直不明白是什么意思as命令在 Python 3 x 中执行你能用简单的英语解释一下吗它本身不是命令而是用作命令一部分的关键字with陈述 with open myfile txt as f text f read 之后的
如何查找使用 TextChanged 添加的文本

我希望在文本框中的文本和变量中的字符串之间进行同步我找到了如何获取更改字符串的索引在文本框中添加的长度和删除的长度但如何才能真正找到添加的字符串到目前为止我已经使用了 TextChangedEventArgs Changes 并
在 WPF 中动态生成的 DataGrid.Columns 中显示图像

我必须从查询中转换信息数据并根据从底层数据库读取的值显示图像假设我的查询中有这些数据 Identifiant ProcessId AlarmLevel BOUDA25 100 1 BOUDA25 110 1 BOUDA25 130 1
如何在ng-repeat中动态更新ng-model？

我在我的角度页面中面临动态 ng model 值的一些问题这是我的示例 JSON mytabs name tab1 values value value1 value value2 value value3 value value4 na
引起原因：使用 lombok 时 java.lang.ClassNotFoundException: com.sun.tools.javac.code.TypeTags

我在 pom xml 中有以下依赖项
Excel VBA ADO SQL - From 子句中的语法错误

VBA ADO 中的以下 SQL 给出 From 子句中的语法错误错误 Sub RunSQL2 Dim cn As ADODB Connection Dim rs As ADODB Recordset Dim strFile As Str
如何编辑一篇博客文章而不是其他博客文章的 CSS 以获得 5 星级评级系统？

我最近创建了我自己的博客使用 Google 的 Blogger 当我读完一本特定的书时我有一个本书的我读过的部分我想要一个静态的地方5星评级系统代替某种形式也许与CSS 我可以定位每本书这样我就能够显示1 至 5 星供访客查看我不知
将 std::mutex 用于由 boost::asio 管理的线程池

不知何故的后续这个问题我只是想知道是否可以使用std mutex在由 a 处理的函数中boost asio io service 使用股线是有点不切实际的从我在升压参考我会说没关系既然它指出异步完成处理程序只会从当前正在调用 io
下单后如何获取盈透证券（IBPY）的交易价格和佣金？

http interactivebrokers github io tws api 也许是一个有用的链接这张图片来自盈透证券的java API指南我想要的数字是交易日志中的价格和佣金 from ib opt import Connect
Javascript 检测用户是否更改选项卡

我正在编写一个用于在线测验的网页我的基本要求是如果用户更改选项卡或打开新闻窗口即使没有最小化其浏览器即如果该人试图从其他窗口选项卡查看答案它也必须触发一个事件停止测验我怎样才能做到这一点 Note 尽量避免在您的答案中包含前
如何让 Google Cloud Functions 保持温暖？

我知道这可能会错过使用 Cloud Functions 的初衷但在我的具体情况下我使用 Cloud Functions 是因为这是我将 Next js 与 Firebase Hosting 桥接的唯一方法我不需要使其具有成本效益等等
放大和缩小按钮 - highcharts

我在气泡图中有自定义缩放按钮放大缩小当用户单击放大按钮时应该在图表中从左到右进行缩放类似地缩小应该以这种方式发生这与立即发生缩小的重置缩放功能相反小提琴链接 https jsfiddle net abcdlearner
将数据发布到 colorbox iframe？

这是我正在使用的代码从我见过的其他例子来看这应该有效但事实并非如此并且已经确保我使用的是最新的彩盒 function updateFolderCate ID Type colorbox iframe true scrolling f
如何使用 System.out.printf？

我的老师希望我们在格式方法在最底部中显示我们的值但问题是我们有一个子程序她没有向我们展示如何使用它而且我的老师也没有提供帮助任何建议或帮助将不胜感激 public class SphereCalculations public
Android 增强现实应用程序从屏幕点转换列表位置

我有问题找不到解决方案我制作了一个 Android 增强现实应用程序在我的应用程序中我有一个兴趣点列表每个兴趣点都是一个位置经度纬度海拔我知道我的位置并且我有相机的方位角现在我的问题是如何在屏幕上绘制这些点 gps
pthread_create 并传递一个整数作为最后一个参数

我有以下功能 void foo void i int a int i int main pthread t thread int i pthread create thread 0 foo void i 编译时存在一些关于转换的错误 vo
部署到 IIS 7 时诊断跟踪日志记录不起作用

我正在将站点从 IIS 6 迁移到 IIS 7 但无法查看所有日志我的system diagnostics配置如下
Java JTextPane + JScrollPane：取消/激活自动滚动

我目前正在用 Java 编写一个简单的聊天目前我陷入了这个问题我希望我的输出 JTextPane 的行为就像您期望它从良好的聊天中获得的那样即默认情况下当新文本到达时文本会自动滚动使用 outputfield setCaretPo
如何在 Spark 中向分解结构添加列？

假设我有以下数据 id 1 payload foo 1 lol 2 foo 2 lol 2 我想分解有效负载并向其中添加一列如下所示 df df select id F explode payload alias data df df w

如何在 Spark 中向分解结构添加列？

如何在 Spark 中向分解结构添加列？ 的相关文章

随机推荐

热门标签

如何在 Spark 中向分解结构添加列？的相关文章