查找 Spark DataFrame 中每组的最大行数

2024-01-14

我尝试使用 Spark 数据帧而不是 RDD，因为它们似乎比 RDD 更高级，并且往往会生成更可读的代码。

在 14 个节点的 Google Dataproc 集群中，我有大约 600 万个名称，这些名称由两个不同的系统转换为 id：sa and sb. Each Row包含name, id_sa and id_sb。我的目标是生成一个映射id_sa to id_sb这样对于每个id_sa，相应的id_sb是所有附加名称中最常见的 IDid_sa.

让我们尝试用一个例子来阐明。如果我有以下行：

[Row(name='n1', id_sa='a1', id_sb='b1'),
 Row(name='n2', id_sa='a1', id_sb='b2'),
 Row(name='n3', id_sa='a1', id_sb='b2'),
 Row(name='n4', id_sa='a2', id_sb='b2')]

我的目标是生成一个映射a1 to b2。事实上，与以下内容相关的名称a1 are n1, n2 and n3，分别映射到b1, b2 and b2, so b2是关联名称中最常见的映射a1。同样地，a2将被映射到b2。可以假设总会有赢家：无需打破平局。

我希望我能使用groupBy(df.id_sa)在我的数据框上，但我不知道下一步该做什么。我希望有一个聚合最终可以生成以下行：

[Row(id_sa=a1, max_id_sb=b2),
 Row(id_sa=a2, max_id_sb=b2)]

但也许我尝试使用错误的工具，我应该重新使用 RDD。

Using join（如果出现平局，将导致组中出现多行）：

import pyspark.sql.functions as F
from pyspark.sql.functions import count, col 

cnts = df.groupBy("id_sa", "id_sb").agg(count("*").alias("cnt")).alias("cnts")
maxs = cnts.groupBy("id_sa").agg(F.max("cnt").alias("mx")).alias("maxs")

cnts.join(maxs, 
  (col("cnt") == col("mx")) & (col("cnts.id_sa") == col("maxs.id_sa"))
).select(col("cnts.id_sa"), col("cnts.id_sb"))

使用窗口函数（将放弃联系）：

from pyspark.sql.functions import row_number
from pyspark.sql.window import Window

w = Window().partitionBy("id_sa").orderBy(col("cnt").desc())

(cnts
  .withColumn("rn", row_number().over(w))
  .where(col("rn") == 1)
  .select("id_sa", "id_sb"))

Using struct订购：

from pyspark.sql.functions import struct

(cnts
  .groupBy("id_sa")
  .agg(F.max(struct(col("cnt"), col("id_sb"))).alias("max"))
  .select(col("id_sa"), col("max.id_sb")))

也可以看看如何选择每组的第一行？ https://stackoverflow.com/q/33878370/1560062

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

查找 Spark DataFrame 中每组的最大行数的相关文章

Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
如何将数组列表转换为 Spark 数据帧

假设我有一个列表 x 1 10 2 14 3 17 我想转换x具有两列的 Spark 数据框id 1 2 3 和value 10 14 17 我怎么能这么做呢 Thanks x 1 10 2 14 3 17 df sc paralleliz
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
默认情况下，Spark sql 模式中的可为空性是建议性的。严格执行的最佳方法是什么？

我正在开发一个简单的 ETL 项目它读取 CSV 文件执行对每列进行一些修改然后将结果以 JSON 格式写出我想要读取我的结果的下游进程确信我的输出符合一个商定的模式但我的问题是即使我定义我的输入模式的所有字段都为 nu
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
Spark 数据帧：根据另一列的值提取一列

我有一个包含带有连接价目表的交易的数据框 paid currency EUR USD GBP 49 5 EUR 99 79 69 客户已支付 49 5 欧元如货币列中所示我现在想将支付的价格与价目表中的价格进行比较因此我需要根据
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
Spark Scala 相当于 SKEW 连接提示

Spark SQL 有一个可用的倾斜提示请参阅here https docs databricks com spark latest spark sql skew join html relation columns and skew v
使用空/空字段值创建新的数据框

我正在从现有数据帧创建一个新数据帧但需要在这个新 DF 中添加新列下面代码中的 field1 我该怎么做工作示例代码示例将不胜感激 val edwDf omniDataFrame withColumn field1 callUDF v
pyspark中的函数input()

我的问题是当我输入 p 的值时没有任何反应它不执行请问有办法修复它吗 import sys from pyspark import SparkContext sc SparkContext local simple App p inp
Pyspark 数据框逐行空列列表

我有一个 Spark 数据框我想创建一个新列其中包含每行中具有 null 的列名称例如原始数据框是 col 1 col 2 col 3 62 45 null 62 49 56 45 null null null null null
如何在 Scala 中将 DataFrame 模式写入文件

我有一个 DataFrame 它从一个巨大的 json 文件加载并从中获取架构该架构基本上大约有 1000 列我希望将 printSchema 的相同输出保存在文件中而不是控制台中有任何想法吗如果您在本地环境中工作您可以执行以下操
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark

随机推荐

类似于 UDP 的广播，具有 TCP 的可靠性

我正在开发一个完全在单个网络内运行的 net 解决方案当用户对系统进行更改时我想发布公告让其他人听到并采取相应行动有没有一种方法可以让我们广播出这样的消息比如 UDP 可以让你这样做同时保持有保证的传递比如 TCP 这是在一个
如何检测 SQL Server 表中的重复行？

在 10 列 50K 行表中检测重复项的最有效方法是什么我正在使用 MSSQL 8 0 展示其他人所描述的示例 SELECT Col1 All of the columns you want to dedupe on Col2 which
Jupyter 笔记本/实验室（如 Colab）的 Vim 绑定

有没有什么方法可以像 colab 一样在 jupyter 笔记本实验室中进行 vim 绑定在 jupyter Lab 附带的 vim 绑定中没有用于在单元格块内进行编辑的 NORMAL 模式然而 Colab 具有更好的绑定因为它允
Devexpress 在 razor mvc3 中添加报告时出错

我正在尝试在我的 MVC 3 Web 应用程序中使用 DevExpress 报告此应用程序是普通的 MVC 3 应用程序而不是 DevExpress MVC 3 应用程序使用以下教程添加 XtraReportshttp documen
应用程序不会写入 MS DB

我创建了一个 Java 桌面应用程序它可以读取并写入 Microsoft Access DB 在我将其转换为应用程序之前该应用程序运行良好 JAR之后它只能从数据库中读取但不能写入关于如何解决这个问题有什么想法吗我猜您已将数据库文
Snap.js 侧面板默认打开？

我正在使用 Snap js https github com jakiestfu Snap js https github com jakiestfu Snap js 为网站构建一个新框架我想知道是否有人知道一种方法可以在您访问该页面时
Javascript If 语句，查看数组

今天下午脑子一片空白我一辈子都想不出正确的方法来做到这一点 if i 3 i 4 i 5 i 6 i 7 i 8 i 9 i 2 i 19 i 18 i 60 i 61 i 50 i 49 i 79 i 78 i 81 i 82 i 80
如何在气流中使用 CLI 清除失败的 DAG

我有一些失败的 DAG 比如说从 2 月 1 日到 2 月 20 日从那天起他们都成功了我尝试使用cli https airflow apache org cli html clear 而不是使用 Web UI 执行二十次 airfl
AppEngine 端点 JsonMappingException - 避免字段被序列化

我有这个错误 com google appengine repackaged org codehaus jackson map JsonMappingException Direct self reference leading to cy
System.Security.Cryptography.CryptographicException：RSACryptoserviceProvider 中的长度错误

我想使用加密和解密数据RSACryptoServiceProvider在 wp8 项目中的 c 中我正在创建非对称密钥 CspParameters parameters new CspParameters parameters KeyCo
隐藏html水平但不垂直的滚动条

我有一个宽度固定但高度可变的 HTML 文本区域我想设置overflow scroll并能够显示垂直滚动条但不能显示水平滚动条我无法使用overflow auto由于其他特定于我的情况的事情我知道使用 CSS2 无法仅显示垂直滚动条
在Python中将不规则间隔的数据重新采样为规则网格

我需要将二维数据重新采样为常规网格这就是我的代码的样子 import matplotlib mlab as ml import numpy as np y np zeros 512 115 x np zeros 512 115 Just
如何使用php连接远程mysql数据库（托管在dotCloud上）

我无法连接到位于 dotCloud 上的数据库我试过 mysqli new mysqli db host db user db password db name and mysqli mysqli connect db host db u
如何查找最新或最近的AWS RDS快照？

我可以打电话aws rds describe db snapshots db instance identifier my db instance 并对所有自动快照进行排序以找到最近创建的快照但我希望有人有更好的主意对我来说这个有效
如何在 Banana PI ZERO M2 上启用 eth0

默认情况下 BPI ZERO M2 上禁用 eth0 这里我们将展示启用它解决方案是创建一个 dtdo 文件并将其放在正确的位置 1 创建文本源文件 bananapi m2 zero eth0 dts dts v1 plugin mode
VBScript - 如何让程序等待进程完成？

我在与 VBA Excel 宏和 HTA 一起使用的 VBScript 中遇到问题问题只是 VBScript 我还有其他两个组件即 VBA 宏和 HTA 前端工作正常但在我解释问题之前我认为为了让您帮助我我必须帮助您了解 VBS
' 在 dart 中没有零参数构造函数' aria-label='超类 'Bloc' 在 dart 中没有零参数构造函数'> 超类 'Bloc' 在 dart 中没有零参数构造函数

我是 Dart 语言开发的初学者我尝试创建一个示例 flutter 应用程序 BLOC 模式其灵感来自于这个 GitHub 存储库 https github com newajthevillager FirebaseUserAuthen
如何在 jenkins 中获取作业的相应构建工件？

我使用创建 Jenkins 工作hudson cli CLI jar 我已选择将文物归档选项中的构建后步骤部分它对每个成功构建的工件进行归档我在用詹金斯远程访问API http localhost 8080 job job na
当最后一个进程处于尾部时未捕获 SIGTERM 信号

我有以下脚本其中有tail pid somepid f mylogs 我想抓住SIGTERM并对该 PID 进行一些正常关闭因为该进程无法理解SIGTERM并痛苦地死去 echo pid trap with arg func 1 shi
查找 Spark DataFrame 中每组的最大行数

我尝试使用 Spark 数据帧而不是 RDD 因为它们似乎比 RDD 更高级并且往往会生成更可读的代码在 14 个节点的 Google Dataproc 集群中我有大约 600 万个名称这些名称由两个不同的系统转换为 id sa a

查找 Spark DataFrame 中每组的最大行数

查找 Spark DataFrame 中每组的最大行数 的相关文章

随机推荐

热门标签

查找 Spark DataFrame 中每组的最大行数的相关文章