Pyspark 按另一个数据帧的列过滤数据帧

2023-12-05

不知道为什么我在这方面遇到困难，考虑到在 R 或 pandas 中相当容易做到，它看起来很简单。我想避免使用 pandas，因为我正在处理大量数据，而且我相信toPandas()将所有数据加载到 pyspark 中的驱动程序内存中。

我有 2 个数据框：df1 and df2。我要过滤df1（删除所有行）其中df1.userid = df2.userid AND df1.group = df2.group。我不确定是否应该使用filter(), join(), or sql例如：

df1:
+------+----------+--------------------+
|userid|   group  |      all_picks     |
+------+----------+--------------------+
|   348|         2|[225, 2235, 2225]   |
|   567|         1|[1110, 1150]        |
|   595|         1|[1150, 1150, 1150]  |
|   580|         2|[2240, 2225]        |
|   448|         1|[1130]              |
+------+----------+--------------------+

df2:
+------+----------+---------+
|userid|   group  |   pick  |
+------+----------+---------+
|   348|         2|     2270|
|   595|         1|     2125|
+------+----------+---------+

Result I want:
+------+----------+--------------------+
|userid|   group  |      all_picks     |
+------+----------+--------------------+
|   567|         1|[1110, 1150]        |
|   580|         2|[2240, 2225]        |
|   448|         1|[1130]              |
+------+----------+--------------------+

编辑：我尝试过很多 join() 和 filter() 函数，我相信我得到的最接近的是：

cond = [df1.userid == df2.userid, df2.group == df2.group]
df1.join(df2, cond, 'left_outer').select(df1.userid, df1.group, df1.all_picks) # Result has 7 rows

我尝试了很多不同的连接类型，也尝试了不同的

cond values:
    cond = ((df1.userid == df2.userid) & (df2.group == df2.group)) # result has 7 rows
    cond = ((df1.userid != df2.userid) & (df2.group != df2.group)) # result has 2 rows

然而，连接似乎是添加额外的行，而不是删除。

我在用着python 2.7 and spark 2.1.0

左反连接是您正在寻找的：

df1.join(df2, ["userid", "group"], "leftanti")

但使用左外连接也可以完成同样的事情：

(df1
    .join(df2, ["userid", "group"], "leftouter")
    .where(df2["pick"].isNull())
    .drop(df2["pick"]))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

apachespark

DataFrame

PySpark

apachesparksql

Pyspark 按另一个数据帧的列过滤数据帧的相关文章

从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
如何在spark Streaming中定期更新rdd

我的代码是这样的 sc SparkContext ssc StreamingContext sc 30 initRDD sc parallelize path to data lines ssc socketTextStream local
将 Excel 读取到从第 5 行开始并包括标题的 Python 数据框

我有一个 Excel 工作簿它在打开时运行一些 vba 刷新数据透视表并执行其他一些操作然后我希望将数据透视表刷新的结果导入到 python 中的数据框中以进行进一步分析 import xlrd wb xlrd open workboo
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
如何在 Spark Dataframe 中显示完整的列内容？

我正在使用 Spark csv 将数据加载到 DataFrame 中我想做一个简单的查询并显示内容 val df sqlContext read format com databricks spark csv option header
在函数内的 for 循环上使用 tqdm 来检查进度

我正在使用 for 循环迭代目录树内的一大组文件这样做时我想通过控制台中的进度条来监视进度因此我决定使用 tqdm 来实现此目的目前我的代码如下所示 for dirPath subdirList fileList in tqdm
pandas groupby 操作缺少数据

在 pandas 数据框中我有一列如下所示 0 M 1 E 2 L 3 M 1 4 M 2 5 M 3 6 E 1 7 E 2 8 E 3 9 E 4 10 L 1 11 L 2 12 M 1 a 13 M 1 b 14 M 1 c 15
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
Spark 数据帧：根据另一列的值提取一列

我有一个包含带有连接价目表的交易的数据框 paid currency EUR USD GBP 49 5 EUR 99 79 69 客户已支付 49 5 欧元如货币列中所示我现在想将支付的价格与价目表中的价格进行比较因此我需要根据
如何将两列 pandas Dataframe 移动并堆叠为一列？

我有一个下面提到的数据框 ETHNIC SEX USUBJID 0 HISPANIC OR LATINO F 16 1 HISPANIC OR LATINO M 8 2 HISPANIC OR LATINO Total 24 3 NOT H
R 更改小数位且不四舍五入

gt signif 1 89 digits 2 1 1 9 我想要1 8 这有点笨拙但它会起作用并保持所有数字 x lt 1 829380 trunc dec lt function x n floor x 10 n 10 n Resul
如何并行运行多个Spark作业？

一个 Spark 有一个 Oracle 查询所以我必须并行运行多个作业以便所有查询同时触发如何并行运行多个作业引用官方文档作业调度 http spark apache org docs latest job scheduling h
如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
如何从pandas中的多列计算多列

我正在尝试使用函数从 pandas 数据框中的多个列计算多个列该函数采用三个参数 a b 和 c 并返回三个计算值 sum prod 和 quot 在我的 pandas 数据框中我有三个列 a b 和 c 我想从中计算列 sum pro
Spark Scala 相当于 SKEW 连接提示

Spark SQL 有一个可用的倾斜提示请参阅here https docs databricks com spark latest spark sql skew join html relation columns and skew v

随机推荐

android 清单中的任何密度

我在我的应用程序中遇到了一个惊人的问题当我把anyDensity在清单中标记为 false 我的应用程序运行良好但每当我将其设置为 true 时我的应用程序就会变得模糊我会在我的应用程序上创建一些位图如果我这样做的话会有问题吗an
以编程方式清除 IE 缓存与 InetCpl.cpl,ClearMyTracksByProcess

我有一个托管网络浏览器控件的应用程序它使用我的微软提供的代码示例定期清除缓存 http support microsoft com kb 262110 然而我注意到一段时间后缓存会损坏或无法正常工作应该超出缓存的请求会被一遍
如何获取用于调用 google api 的委托凭证对象？

我正在尝试通过 API 获取 gsuite 警报我已经按照他们的要求创建了一个服务帐户docs我已将该服务帐户分配给我的谷歌云功能我不想使用环境变量或上传凭据以及源代码但我想利用函数使用的默认服务帐户 from googleapicl
修复跨线程异常

我需要一些帮助来修复跨线程异常我使用 Invoke 通常可以解决这个问题但由于某种原因它不起作用 void paintTimer Elapsed object sender System Timers ElapsedEventArgs
如何计算python中数组中的值与数组之和的比率？ [复制]

这个问题在这里已经有答案了我有一个这样的数组 array 1 2 3 5 3 4 6 7 2 对于每个成员我想计算它们与行总和的比率因此我在建议样本中的问题的结果是 result 1 1 2 3 2 1 2 3 3 1 2 3 5
iOS 逐帧视频向前/向后播放

我想在 iOS 设备上以慢动作播放视频我的视图包含一个视频约 2 秒长和一个滑块用户可以移动滑块并逐帧向前和向后浏览电影 MPMoviePlayerController缺乏逐帧步进的能力我读到MVAssetReader 但我不
绑定 int64 (SQL_BIGINT) 作为查询参数会导致在 Oracle 10g ODBC 中执行期间出错

我在 Oracle 10g 上使用 ODBC 3 0 插入表失败我不知道为什么数据库运行在Windows Server 2003上客户端运行在Windows XP上桌子 CREATE TABLE test testcol NUMBE
Flutter：预定的通知日期时间

我正在寻找将 Flutter 的插件 date time picker 与本地通知集成因此当我选择日期时间时我还会安排通知这是我的代码你能帮我吗现在我没有任何错误但代码不起作用 class test1 extends Stat
如何规范工作目录中的行结尾

我的 git 存储库中有以 LF 结尾的文件不知何故我的工作树中的一些文件被转换为 CRLF 有没有办法将我的工作树中的行结尾转换回 LF 请注意我的目录中有一些文件 gitignore所以我不想简单地删除所有内容并再次检查尽管如果
在 mac 雪豹上启用 php [关闭]

Closed 这个问题是无关目前不接受答案安装 Entropy PHP 5 3 03 pkg 我一直在尝试在我的 mac 上启用 php 但每次我将浏览器指向 test php 时我得到的只是显示的源代码我将 test php 放在
Bash 脚本 - Do-While 循环中的变量作用域

我有一个 do while 循环我在其中向自身添加一个变量 while read line do let variable variable someOtherVariable done return variable 当我回显 vari
使用 C# .accdb 文件的 Microsoft Access 压缩和修复

我需要使用 C 压缩并修复 accdb 最后一个 MS Access 版本我尝试使用这个 var jroEngine new JRO JetEngineClass var old Provider Microsoft ACE OLEDB
用 rpy 制作的图发送到 X11 突然关闭？

我正在使用 RPy2 来绘制一些图绘图显示但 X11 窗口立即消失我输入的内容如下CCFS是一个数据矩阵 import rpy2 robjects as robjects r robjects r pca r princomp CCF
将 mongo ObjectId 转换为字符串并将其用于 URL 可以吗？

document show id 4cf8ce8a8aad6957ff00005b 一般来说我认为您应该谨慎向客户端公开内部结构例如数据库 ID URL 很容易被操纵并且用户可能访问您不希望他访问的对象特别是对于 MongoDB 对
SQL Server：如何获取排它锁以防止竞争条件？

我有以下 T SQL 代码 SET TRANSACTION ISOLATION LEVEL SERIALIZABLE BEGIN TRANSACTION T1 Test This is a dummy table used for lock
PHP 多个复选框删除

我很难解决删除多个复选框的问题有人可以指导我找到解决方案吗这里应该发生的是用户可以勾选复选框并单击删除按钮来删除勾选的框不幸的是我的代码似乎不起作用你能为我指出正确的方向吗 div class page img class pa
为什么必须声明 Typescript 的环境接口实现？

我有一些接口及其实现的定义每个实现类都必须声明许多方法我发现它乏味且多余因为它只是一个定义是否只是缺乏时间来实现此功能或者为什么应该强制执行环境实现定义背后的某些想法或者我错过了什么 UPDATE 我现在不喜欢我的问题它是从一
这是批处理文件注入吗？

C gt batinjection OFF DEL c c batinjection bat 的内容为ECHO 我听说过 SQL 注入虽然我从未真正做过但这就是注入吗有不同类型的注射吗这是其中之一吗或者还有另一个技术术语吗或者更
如何覆盖 AWS-SDK-CPP 中的端点以连接到 localhost:9000 处的 minio 服务器

我尝试过类似的东西 Aws Client ClientConfiguration config config endpointOverride Aws String localhost 9000 这是行不通的看来AWS SDK CPP默认
Pyspark 按另一个数据帧的列过滤数据帧

不知道为什么我在这方面遇到困难考虑到在 R 或 pandas 中相当容易做到它看起来很简单我想避免使用 pandas 因为我正在处理大量数据而且我相信toPandas 将所有数据加载到 pyspark 中的驱动程序内存中我有 2

Pyspark 按另一个数据帧的列过滤数据帧

Pyspark 按另一个数据帧的列过滤数据帧 的相关文章

随机推荐

热门标签

Pyspark 按另一个数据帧的列过滤数据帧的相关文章