pyspark：聚合列中最常见的值

2024-05-23

  aggregrated_table = df_input.groupBy('city', 'income_bracket') \
        .agg(
       count('suburb').alias('suburb'),
       sum('population').alias('population'),
       sum('gross_income').alias('gross_income'),
       sum('no_households').alias('no_households'))

希望按城市和收入阶层进行分组，但每个城市内的某些郊区有不同的收入阶层。如何按每个城市最常出现的收入阶层进行分组？

例如：

city1 suburb1 income_bracket_10 
city1 suburb1 income_bracket_10 
city1 suburb2 income_bracket_10 
city1 suburb3 income_bracket_11 
city1 suburb4 income_bracket_10

将按收入_括号_10 分组

在聚合之前使用窗口函数可能会达到目的：

from pyspark.sql import Window
import pyspark.sql.functions as psf

w = Window.partitionBy('city')
aggregrated_table = df_input.withColumn(
    "count", 
    psf.count("*").over(w)
).withColumn(
    "rn", 
    psf.row_number().over(w.orderBy(psf.desc("count")))
).filter("rn = 1").groupBy('city', 'income_bracket').agg(
   psf.count('suburb').alias('suburb'),
   psf.sum('population').alias('population'),
   psf.sum('gross_income').alias('gross_income'),
   psf.sum('no_households').alias('no_households'))

您还可以在聚合后使用窗口函数，因为您要记录（城市，收入括号）出现的次数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

groupby

PySpark

Aggregate

pyspark：聚合列中最常见的值的相关文章

ORDER BY 之后的 GROUP BY

我需要去做GROUP BY after ORDER BY 我不明白为什么 MySQL 不支持这一点这是我的代码 SELECT pages id contents id language ORDER BY FIND IN SET langu
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
Pyspark UDF AttributeError：“NoneType”对象没有属性“_jvm”

我有一个 udf 函数 staticmethod F udf array
根据条件组合 Spark 数据帧列中的多行

我正在尝试根据条件组合 Spark 数据框中的多行这是我的数据框 df username qid row no text a 1 1 this a 1 2 is d 2 1 the a 1 3 text d 2 2 ball 我希望它看起
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

我通过 pycharm 和 pyspark shell 分别运行 Spark 我已经堆积了这个错误 java lang OutOfMemoryError Java heap space at org apache spark api pyt
在 Linq 中分组同时保留顺序

我有一个IQueryable Of Job 除其他事项外约伯还拥有 Property CreatedOn as DateTime Property JobType as JobTypes Enum JobTypes JobType1 Jo
Pandas 在 groupby 之后获取行

假设我有以下数据集 uid iid val 1 1 2 1 2 3 1 3 4 1 4 4 5 1 5 5 5 2 1 3 2 2 3 2 3 4 3 4 4 5 3 5 5 5 根据这些数据我想首先按 uid 进行分组然后从每个 ui
将 CSV 文件读取到嵌套对象

我有 CSV 文件例如 Title Column Value A Z1 1 A Z1 2 A Z1 3 A Z2 1 A Z2 5 B Z3 4 B Z3 6 我想将此 csv 文件读入以下类层次结构我想最终得到一个列表MyClass
SQL统计高于和低于平均分的学生人数

我在下面有一个示例表我试图获取高于平均分数的学生人数和低于平均分数的学生人数 name subject classroom classarm session first term score first term grade std1 m
Sql Server：如何在 WHERE 子句中使用 MAX 等聚合函数

我想获得该记录的最大值请帮我 SELECT rest field1 FROM mastertable AS m INNER JOIN SELECT t1 field1 field1 t2 field2 FROM table1 AS T1
使用 MS Access 获取行的第一个实例

EDITED 我有这个查询我想SELECT表中记录的第一个实例petTable SELECT id pet ID FIRST petName First Description FROM petTable GROUP BY pet ID
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
为什么我的执行程序核心构建指定了 OOM？

我有一个正在运行的构建DRIVER MEMORY LARGE NUM EXECUTORS 64 and EXECUTOR CORES LARGE 为什么这没有足够的资源来防止我的工作因执行者损失而失败OOM https stackoverf
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
MySql 5.7 ORDER BY 子句不在 GROUP BY 子句中并且包含非聚合列

我试图在不禁用 my ini 中的 only full group by 的情况下弄清楚这是我的查询 SELECT p title COUNT t qty AS total FROM payments t LEFT JOIN produc
SQL：如何在按部分分组的查询中使用子查询？

如何在按部分分组的查询中使用子查询我使用 SQL Server 2008 R2 和 Delphi 2010 我收到此错误 Cannot perform an aggregate function on an expression cont
不带 GROUP BY 的聚合查询

这个查询似乎在我的旧机器上完美运行但是在我的 MySQL 5 7 14 和 PHP 5 6 25 的新机器上它会抛出错误致命错误未捕获异常 PDOException 并带有消息 SQLSTATE 42000 语法错误或访问冲突 1
Python Pandas 滚动聚合一列列表

我有一个简单的数据框 df 和一列列表lists 我想根据以下内容生成一个附加列lists The df好像 import pandas as pd lists 1 1 2 1 2 3 3 2 9 7 9 4 2 7 3 5 create
pickle.PicklingError：无法腌制未打开读取的文件

我在 Dataproc 上运行 PySpark 作业时收到此错误可能是什么原因这是错误的堆栈跟踪 File usr lib python2 7 pickle py line 331 in save self save reduce ob

随机推荐

SessionNotCreatedException：消息：会话未创建：此版本的 ChromeDriver 仅支持 Chrome 版本 96 当前浏览器版本为 98.0

错误跟踪日志 DevTools listening on ws 127 0 0 1 54791 devtools browser 6f264bcc d44a 40d9 b6cf 8b1655c97ccd Traceback most rec
Erlang 中的非终止函数类型

我正在学习 Erlang 并尝试使用 Dialyzer 在可能的情况下获得最大的类型安全性有一点不太明白什么是类型非终止的函数以及如何表示它 spec 有人能解释一下吗永远循环且永不终止的函数具有返回类型no return 该返回类型
Codeigniter PHP - 在锚点加载视图

我在一个长页面的底部有一个表单如果用户填写了表单但它不验证页面是否以典型的 codeigniter 方式重新加载 this gt load gt view template data 然而由于表单位于页面底部我需要将页面加载到那里就
XML - XSLT 转换 - 生成特殊的“”标签

我正在转换一些 XML 数据以适合格式为 Excel XML Spreadsheet 2003 的文档一切正常但我在生成结果文件的正确标头时遇到问题它基本上应该是以下形式
解决C++中涉及多重继承和复合类的设计

我已经为这个设计问题苦苦挣扎了一段时间我将尽力解释我正在尝试做的事情以及我所看到的各种方法我正在尝试什么以及为什么我在科学计算环境中工作反复处理相同类型的对象想象一个包含太阳系的星系每个太阳系都包含行星系统每个行星系统都包含卫
如何防止 hashmap 或 treemap 替换以前的值

如果已经存在如何防止哈希图或树形图替换以前的键值另外我想抛出异常来通知用户任何这样的地图都会违反正常的Map界面说实话但如果您愿意这样做您可以轻松创建自己的Map委托给另一个映射的实现但仅在检查现有元素是否存在之后 publ
CakePHP PaginationRecallComponent，严格 (2048)：PaginationRecallComponent::initialize() 声明

我尝试插入分页调用组件 http bakery cakephp org articles Zaphod 2012 03 27 paginationrecall for cakephp 2 x http bakery cakephp org
自定义 UITableViewCell 错误

我收到此错误 Terminating app due to uncaught exception NSUnknownKeyException reason
是否可以在 opengrok 中搜索包含大括号的短语？

我尝试过使用 struct a 和 struct a 之类的东西来查找 a 的声明但 opengrok 似乎只是忽略了大括号有没有办法搜索短语 struct a Grok 支持转义查询语法中的特殊字符当前的特殊字符列表是 To esc
寻找一种从 C++ 调用 Java 的便捷方法

似乎大多数与 JNI Java 本机接口相关的文档或帮助程序库都与从 Java 调用本机代码有关这似乎是它的主要用途尽管它还有更多功能我主要想朝相反的方向工作通过添加一些 Java 库来修改现有的相当大的可移植 C 程序例如
表格外的标题？

我试图在乳胶中向表格添加标题但它会抛出此错误乳胶错误标题位于浮动之外从错误中我猜测这意味着它在表之外但我已经清楚地把它放在里面了 begin tabular c c c c c c caption Table1 Potentiom
无法使用 Runtime.getRuntime().exec 从 jsp 执行 java 程序

我正在尝试通过 jsp 运行 jar 文件我使用命令Runtime getRuntime exec java jar file jar 我收到错误Unable to access jarfile file jar当我打印错误流时我尝试将
如何用 C 语言编写 gRPC 客户端/服务器？

我有一个用 C 编写的程序想在其中包含 gRPC 然而 gRPC 的 API 是用 C 编写的我查看了这里并让 foo client 和 foo server 正常工作 https github com Juniper grpc c t
从 Facebook Account Kit 获取电话号码

Account Kit 文档指出如果您使用 AccountKitActivity ResponseType TOKEN 开始登录会话则可以通过调用 getCurrentAccount 来访问当前帐户的 Account Kit ID 电话
设置 pyodbc 搜索 odbcinst.ini 文件的位置

我正在尝试使用查询 ODBC 兼容数据库pyodbc in ubuntu 为此我已经安装了驱动程序例如 mysql odbc driver 安装后odbcinst ini在该位置创建包含配置的文件 usr share libmyodbc
Swift 中的 @autoreleasepool 相当于什么？

在 Swift 中我注意到没有 autoreleasepool 构造尽管 Swift 确实使用了 ARC 在 Swift 中管理自动释放池的正确方法是什么或者它是否因某种原因被删除语法如下 autoreleasepool code
从 iOS 设备向 Google App Engine 进行身份验证

我正在开发一个 iPhone 应用程序它使用 Google 应用程序引擎来托管后端我需要通过 Google 进行身份验证但我似乎无法找到从我的应用程序中执行此操作的方法看来我要做一个UIWebView让用户登录到我从 Google
java.lang.NoSuchMethodError：没有虚拟方法 setTag(Ljava/lang/Object;)

我刚刚完成使用登录和注册屏幕与齐射的代码但在模拟器中运行时我收到此错误 java lang NoSuchMethodError No virtual method setTag Ljava lang Object Lcom android
使用 Twitter Bootstrap 将 4 列变为 2 列

我有一个 4 列流体布局 div class container fluid div class row fluid div class span3 A div div class span3 B div div class span3 C
pyspark：聚合列中最常见的值

aggregrated table df input groupBy city income bracket agg count suburb alias suburb sum population alias population sum

pyspark：聚合列中最常见的值

pyspark：聚合列中最常见的值 的相关文章

随机推荐

热门标签

pyspark：聚合列中最常见的值的相关文章