在地图类型中创建 DataFrame 分组列

2024-05-26

My 数据框具有以下结构：

df = spark.createDataFrame(
    [('B', 'a', 10),
     ('B', 'b', 20),
     ('C', 'c', 30)],
    ['Brand', 'Type', 'Amount'])
df.show()
# +-----+----+------+
# |Brand|Type|Amount|
# +-----+----+------+
# |    B|   a|    10|
# |    B|   b|    20|
# |    C|   c|    30|
# +-----+----+------+

我想通过分组来减少行数type and amount成一列type: Map. So Brand将是独一无二的并且MAP_type_AMOUNT将会有key,value对于每个type amount组合。

我认为，spark.sql 可能有一些函数可以做到这一点，或者我是否必须使用 RDD 并进行“自己的”转换为映射类型？

预期产出:

---------------------------
| Brand | MAP_type_AMOUNT |
---------------------------
|  B    |  {a: 10, b:20}  |
|  C    |  {c: 30}        |
---------------------------

略有改善Prem's https://stackoverflow.com/questions/45532183/pyspark-create-dataframe-grouping-columns-in-map-type-structure/45535762#45535762回答（抱歉我还不能发表评论）

Use func.create_map代替func.struct. See 文档 https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=map#pyspark.sql.functions.create_map

import pyspark.sql.functions as func
df = sc.parallelize([('B','a',10),('B','b',20),
('C','c',30)]).toDF(['Brand','Type','Amount'])

df_converted = df.groupBy("Brand").\
    agg(func.collect_list(func.create_map(func.col("Type"),
    func.col("Amount"))).alias("MAP_type_AMOUNT"))

print df_converted.collect()

Output:

[Row(Brand=u'B', MAP_type_AMOUNT=[{u'a': 10}, {u'b': 20}]),
 Row(Brand=u'C', MAP_type_AMOUNT=[{u'c': 30}])]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在地图类型中创建 DataFrame 分组列的相关文章

Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
将 saxon 与 python 结合使用

我需要使用 python 处理 XSLT 目前我正在使用仅支持 XSLT 1 的 lxml 现在我需要处理 XSLT 2 有没有办法将 saxon XSLT 处理器与 python 一起使用有两种可能的方法设置一个 HTTP 服务接受
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
如何为 Spark RDD 中的元素分配唯一的连续编号

我有一个数据集 user product review 并希望将其输入到 mllib 的 ALS 算法中该算法需要用户和产品是数字而我的是字符串用户名和字符串SKU 现在我获取不同的用户和 SKU 然后在 Spark 外部为它们分配数
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
Erlang dict的时间复杂度

我想知道 Erlang OTP 是否dict模块是作为哈希表实现的在这种情况下它是否能提供这样的性能平均情况 Search O 1 n k Insert O 1 Delete O 1 n k 最坏的情况下 Search O n Inse

随机推荐

仅底部的框阴影

我有一盒内容需要为其提供阴影但我只想为盒子的底部提供阴影我用过这个css box shadow 0 3px 5px 000000 如果我给出这个代码它会显示左右和底部我只需要底部任何人都可以建议解决这个问题吗多谢添加类后您
Oracle SQL 查询日期格式

我总是对 ORACLE SQL 查询中的日期格式感到困惑并花几分钟时间去谷歌有人可以向我解释当数据库表中有不同格式的日期时解决问题的最简单方法吗例如我有一个日期列为 ES DATE 保存的数据为 27 APR 12 11 52 48
如何在 sed 中用“pwd”的结果替换令牌？

我正在尝试做这样的事情 sed s REPLACE WITH PATH pwd 不幸的是我出错了 sed e expression 1 char 23 unknown option to s 为什么会发生这种情况您需要使用不同的字符而不
在 Swift 中删除字符串中第一个字符的最简洁方法是什么？

我想删除字符串中的第一个字符到目前为止我想到的最简洁的事情是 display text display text substringFromIndex advance display text startIndex 1 我知道我们不能用
.NET：EventHandler 竞争条件修复如何工作？

以下模式用于在引发事件时避免竞争条件以防另一个线程取消订阅 MyEvent 使其为空 class MyClass public event EventHandler MyEvent public void F EventHandler h
cmd：找不到服务：活动#Error：ADB 在 flutter 中退出，退出代码为 1

更新 android studio 后我运行我的 flutter 程序错误表明 Launching lib main dart on AOSP on IA Emulator in debug mode Running Gradle ta
BigVideo.js 播放结束时 URL 重定向

我已经使用基于 Video js 的 BigVideo 在页面上实现了背景视频单击 div 时视频会在后台播放我一生都无法弄清楚如何在视频播放完毕后重定向到另一个 URL 这是我正在使用的代码视频播放链接 a href vids g
动态 getter 和 setter - 一种可能性

我正在尝试解决最近出现的一个问题假设我们想要并且知道如何在 javascript 中使用动态 getter 和 setter 就像 php 中的那样 get set 但由于 javascript 没有包罗万象的属性我们唯一能做的就是提供
从 C++ 中的函数返回二维数组[重复]

这个问题在这里已经有答案了可能的重复 C 从函数返回多维数组 https stackoverflow com questions 3716595 c returning multidimension array from function
在 pandas 中展开列表列时，是否有一种Python式的方法来添加枚举列？

考虑以下DataFrame gt gt gt df pd DataFrame A 1 2 3 B abc def ghi apply A int B list gt gt gt df A B 0 1 a b c 1 2 d e f 2 3
如何正确实现带有 close 方法的处置模式（CA1063）

框架设计指南第二版第 327 页说考虑提供方法Close 除了Dispose 如果接近是该领域的标准术语这样做时重要的是使 Close 实现与Dispose并考虑实施IDisposable Dispose方法明确因此按照提
无法使用 Firebase 广告：没有静态方法 zzc(Landroid/os/Bundle;

我正在尝试将 Firebase 广告库添加到我的项目该项目已经上线中构建工作正常但当我尝试运行时它崩溃并出现以下错误 11 16 10 33 13 535 540 540 com dap E AndroidRuntime 致命异常
Spring Hibernate中的@Transient方法调用

我有一个 Pojo 类在其中创建一个未与数据库表映射的字段所以我必须声明字段Declaration和setter和getter方法 Transient 否则会显示错误 Transient private String docHistor
PlayFramework 2.4 在应用程序启动后运行一些代码

在 play 2 4 中重写 ApplicationLoader 中的构建器方法或在 Abstract 模块中实现 EagerBinding 替换现有的 play 2 3 GlobalSettings onStart 然而在 play
具有成员 std::mutex （或其他不可复制对象）的类的复制或移动构造函数？

class A private class B private std mutex mu A parent NULL public B A const parent ptr parent parent ptr B const A B b c
将误差线添加到 3D 绘图

我找不到在 matplotlib 的 3D 散点图中绘制误差条的方法基本上对于以下代码段 from mpl toolkits mplot3d import axes3d import matplotlib pyplot as plt f
Candidate.toLowerCase 不是函数。（在“candidate.toLowerCase()”中，“candidate.toLowerCase”未定义）Material UI

我在用AutoComplete API材质 UI 有一个对象前 100 部影片其中包含电影的标题和年份如果我搜索我的自动完成功能可以正常工作top100Film title如代码所示
如何有效地左填充字节数组

假设我有一个数组 LogoDataBy byte 0x00000008 0x00000000 0x41 0x00000001 0x42 0x00000002 0x43 0x00000003 0x44 0x00000004 0x31 0x00
如何识别数据集中其他列之和的列

我想编写一个函数最好用 R 语言但也欢迎其他语言它可以识别数据集中列之间的关系仅限于加法减法其实际应用是在大型多列财务数据集上运行它其中某些列是其他列的小计并识别此类小计理想情况下我希望允许一些小的差异例如允许舍入问题
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c

在地图类型中创建 DataFrame 分组列

在地图类型中创建 DataFrame 分组列 的相关文章

随机推荐

热门标签

在地图类型中创建 DataFrame 分组列的相关文章