Pyspark - 多列聚合

2023-12-23

我有如下数据。文件名：babynames.csv。

year    name    percent     sex
1880    John    0.081541    boy
1880    William 0.080511    boy
1880    James   0.050057    boy

我需要根据年份和性别对输入进行排序，并且希望输出如下所示聚合（此输出将分配给新的 RDD）。

year    sex   avg(percentage)   count(rows)
1880    boy   0.070703         3

我不确定在 pyspark 中执行以下步骤后如何继续。需要你的帮助

testrdd = sc.textFile("babynames.csv");
rows = testrdd.map(lambda y:y.split(',')).filter(lambda x:"year" not in x[0])
aggregatedoutput = ????

按照以下说明进行操作自述文件 https://github.com/databricks/spark-csv/blob/master/README.md包括spark-csv package https://github.com/databricks/spark-csv

加载数据

df = (sqlContext.read
    .format("com.databricks.spark.csv")
    .options(inferSchema="true", delimiter=";", header="true")
    .load("babynames.csv"))

导入所需功能

from pyspark.sql.functions import count, avg

分组依据和聚合（可以选择使用Column.alias:

df.groupBy("year", "sex").agg(avg("percent"), count("*"))

或者:

cast percent转为数字
重塑为格式 ((year, sex), percent)
aggregateByKey using pyspark.statcounter.StatCounter

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

apachespark

PySpark

Pyspark - 多列聚合的相关文章

如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar

随机推荐

self.tableView.delegate = self Swift

如果我有一个 UIViewController 并且我在故事板中将 tableView 连接到它连接 tableview 出口然后通过连接检查器连接数据源和委托方法 cntrl 拖动到 vc 橙色圆圈图标我还需要添加self tabl
如何解决没有 xargs -d 的 MacOS X 问题？

我有以下命令 xargs d n n 8 bash c phpcs element PSR2 1 2 3 4 5 6 7 8 gt 2 2 gt dev null 如果我在 Linux 中运行此命令它会起作用如果我尝试在 Mac OSX
Apiary：是否可以记录 JSON 响应字段是什么？

我想记录实际的 JSON 字段本身代表什么我已经记录了 GET 语句和参数但这并不能提供给用户的完整文档那么在下面的示例中我将如何添加有关 OtherFields 的注释支持吗或者我是否需要在其他地方制作一份配套文档 View
GStreamer：将虚拟音轨添加到接收的 rtp 流中

我正在使用以下命令从 Raspberry 相机启动 RTP 流 raspivid n vf fl t 0 w 640 h 480 b 1200000 fps 20 pf baseline o gst launch 1 0 v fdsrc h
获取 Span 文本的值

我有一个跨度class span 和一个隐藏字段class dropdown The span文本发生变化我需要抓取文本并将其设置为隐藏字段值的值然后我将使用 php 我已经有了并使用隐藏字段的名称通过电子邮件将文本发送给我我该怎么
在 .app 运行时触发脚本（AppleScript 或 JXA）？

我有一个小型计算机实验室供学生在无人监督的情况下使用并在网络上连接了打印机我正在尝试实现一个简单的脚本添加警报对话框其中包含有关打印机的所有规则当他们从任意数量的不同应用程序中选择打印时我需要弹出这些规则我正在尝试将脚本直接附
禁用 JButton 的空格键触发单击

JButton 认为按空格键与单击 JButton 相同假设 JButton 具有焦点我在这里假设有没有办法关闭这种行为让他们忽略按空格键另外更一般地说是否有一种技术可以做到这一点AbstractButtons 您可以通过执行
删除默认构造函数仍然是微不足道的？

查看标准中普通默认构造函数的定义如果默认构造函数不是用户提供的并且满足以下条件则它是微不足道的它的类没有虚函数 10 3 也没有虚基类 10 1 并且其类的非静态数据成员没有大括号或等于初始化程序并且其类的所有直接基类都有简单的
如果用户有 cookie javascript 如何重定向用户

我需要知道当用户第一次使用 javascript 访问该页面时如何为他们提供 cookie 然后我需要 cookie 在 1 小时内过期如果 cookie 仍然存在并且他们尝试在 1 小时结束之前访问该页面那么它会重定向他们相关解决方
HTML5 视频的图像占位符备用

我使用以下代码在页面上实现 HTML5 视频
.NET System.Diagnostics.Stopwatch 问题（返回值太低）

在我的计算机上秒表返回的值太低例如当我指定时为 200 毫秒Thread Sleep 1000 该程序应该等待 1 秒我也测试过ManualResetEvent WaitOne 1000 并得到相同的结果框架 2 0 和 3 0
SQL 中的排除语句

如何使用SQL语句从SQL数据库中排除数据我的情况是我有一个用户登录到他们的个人资料页面他们可以在其中与人交友我想显示在 SQL 数据库中找到的除他们自己之外的所有用户也许只是 SELECT FROM Users WHERE Us
如何创建一个迭代器来生成项目，其中没有项目的单个字符在 python 中表示超过 n 次？

我创建了一个脚本它使用以下代码来迭代 sCharacters 字符串中的所有字符组合 sCharacters abcdefghijklmnopqrstuvwxyz0123456789 iKeyLength len sCharacters
如果 PostgreSQL 上不存在如何添加列？

问题很简单如何添加列x到餐桌y 但仅当x列不存在我找到了唯一的解决方案here https stackoverflow com questions 9991043 how can i test if a column exists in
nginx代理通过Node，SSL？

我的 nginx 服务器实际上是用一个简单的方法代理我的节点后端监听端口 3000 location api proxy pass http upstream 1 其中upstream 1是我在nginx conf中定义的节点集群在端口
什么是跟踪分支？

有人可以解释一下适用于 git 的跟踪分支吗这是来自的定义git scm com https git scm com book en v2 Git Branching Remote Branches Git 中的跟踪分支是本地分支
继承：选择继承哪些基类方法[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我有课Base并想写一个类Derive它仅继承了部分成员函数Base 有什么方便的方法可以做到这一点吗例如 class Base void
在 C# 中访问简单的布尔标志时，是否需要锁定或标记为易失性？

假设您有一个在后台线程上运行的简单操作您希望提供一种方法来取消此操作因此您创建一个布尔标志并从取消按钮的单击事件处理程序将其设置为 true private bool cancelled private void CancelButt
如何将 Material UI 中的组件居中并使其具有响应能力？

我不太了解 Material UI 网格系统如果我想使用表单组件进行登录在所有设备移动设备和桌面设备上将其置于屏幕中央的最简单方法是什么因为您将在登录页面上使用它这是我在使用 Material UI 的登录页面中使用的代码材质
Pyspark - 多列聚合

我有如下数据文件名 babynames csv year name percent sex 1880 John 0 081541 boy 1880 William 0 080511 boy 1880 James 0 050057 boy

Pyspark - 多列聚合

Pyspark - 多列聚合 的相关文章

随机推荐

热门标签

Pyspark - 多列聚合的相关文章