Pyspark 合并数据帧行，一个数组包含在另一个数组中

2023-12-30

我什至不知道表达这些问题的最佳标题是什么。

我有以下数据集

df = spark.createDataFrame([\
            (["1", "2","3","4"], ),\
            (["1","2","3"], ),\
            (["2","1","3"], ),\
            (["2","3","4","1"], ),\
            (["6","7"], )\
], ['cycle', ])
df.show()

+------------+
|       cycle|
+------------+
|[1, 2, 3, 4]|
|   [1, 2, 3]|
|   [2, 1, 3]|
|[2, 3, 4, 1]|
|      [6, 7]|
+------------+

我最后想要的是：

删除排列
仅保留包含所有其他集合的最大行的行

我可以用sort_array() and distinct()摆脱排列

df.select(f.sort_array("cycle").alias("cycle")).distinct().show() 
+------------+
|       cycle|
+------------+
|[1, 2, 3, 4]|
|      [6, 7]|
|   [1, 2, 3]|
+------------+

我想用 Pyspark 减少数据集是：

+------------+
|       cycle|
+------------+
|[1, 2, 3, 4]|
|      [6, 7]|
+------------+

所以以某种方式检查一下[1, 2, 3]是其一部分[1, 2, 3, 4]并且只保留所以Python子集命令A.issubset(B)应用在Pyspark、Spark方式上一列

我目前能想到的唯一方法是对每一行进行可怕的迭代循环，这将杀死所有性能

您可以尝试的一种方法是首先找到所有cycles 至少有一个superset（排除自我）通过使用自加入找到d2.cycle满足以下条件：

size(数组除外 http://spark.apache.org/docs/2.4.0/api/python/pyspark.sql.html#pyspark.sql.functions.array_except(d2.cycle, d1.cycle))==0: 中没有项目d2.cycle被排除在d1.cycle（空数组将满足）
size(d2.cycle) < size(d1.cycle): the size of d2.cycle小于size of d1.cycle:

然后采用 left_anti 连接从原始数据帧中排除上述列表，最后运行 sort_array 和 drop_duplicates（或distinct）：

from pyspark.sql.functions import expr

df_sub = df.alias('d1').join(
      df.alias('d2')
    , expr('size(array_except(d2.cycle, d1.cycle))==0 AND size(d2.cycle) < size(d1.cycle)')
).select('d2.cycle').distinct()

df_sub.show()
#+---------+
#|    cycle|
#+---------+
#|[1, 2, 3]|
#|[2, 1, 3]|
#+---------+

df.join(df_sub , on=['cycle'], how='left_anti') \
  .withColumn('cycle', expr('sort_array(cycle)')) \
  .distinct() \
  .show()
#+------------+                                                                  
#|       cycle|
#+------------+
#|[1, 2, 3, 4]|
#|      [6, 7]|
#+------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

Pyspark 合并数据帧行，一个数组包含在另一个数组中的相关文章

Python Nose 导入错误

我似乎无法理解鼻子测试框架 https nose readthedocs org en latest 识别文件结构中测试脚本下方的模块我已经设置了演示该问题的最简单的示例下面我会解释一下这是包文件结构 init py foo py t
DataFrame 在函数内部修改

我面临一个我以前从未观察到的函数内数据帧修改的问题有没有一种方法可以处理这个问题以便初始数据帧不被修改 def test df df tt np nan return df dff pd DataFrame data 现在当我打印时d
Python + PostgreSQL + 奇怪的ascii = UTF8编码错误

我有包含字符的 ascii 字符串 x80 代表欧元符号 gt gt gt print x80 当将包含该字符的字符串数据插入数据库时我得到 psycopg2 DataError invalid byte sequence for enc
为什么导入 pdb 时出现此错误？ “模块”对象没有属性“ascii_letters”

尝试调试我的代码我正在导入库pdb import sys from subprocess import check call import pdb functions if name main Code 我收到此错误 File reg p
conda 无法从 yml 创建环境

我尝试运行下面的代码来从 YAML 文件创建虚拟 Python 环境我在 Ubuntu 服务器上的命令行中运行代码虚拟环境名为 py36 当我运行下面的代码时我收到下面的消息环境也没有被创建这个问题是因为我有几个必须使用 pip
使用 Scipy imsave 将 Numpy 数组保存到图像时保留未更改的数据

使用 Scipy 保存二维 Numpy 数组单个值时toimage or imsave像素值与 Numpy 数组中的像素值不完全匹配相反在某些区域主要是边缘图像算法似乎使用某种插值是否有一个选项可以停止插值并保留准确的数据例
在Python中创建一个新表

我正在尝试从数控机床中提取数据事件每毫秒发生一次我需要过滤掉一些用管道分隔的变量分隔符 PuTTy exe 程序生成的日志文件我尝试阅读熊猫但列不在同一位置 df pd read table data log sep 日志文件的一
如何使用循环将十进制转换为二进制？

我想编写一个程序将十进制数 0 到 9 转换为二进制数我可以编写如何使用重复除法将十进制数转换为二进制数的代码但是我在创建一个以二进制格式打印十进制数字 0 到 9 的循环时遇到了麻烦这是我的代码 number 0 remaind
网页抓取 - 前往第 2 页

如何访问数据集的第二页无论我做什么它都只返回第 1 页 import bs4 from urllib request import urlopen as uReq from bs4 import BeautifulSoup as sou
如何使用 Python 多处理避免在分叉进程中加载父模块

当您创建一个Pool使用Python的进程multiprocessing 这些进程将分叉父进程中的全局变量将显示在子进程中如下面的问题所述如何限制多处理进程的范围 https stackoverflow com questions 2
一行Python和SQLite代码，为什么需要加“，”？ [复制]

这个问题在这里已经有答案了 c execute INSERT INTO numbers VALUES random randint 0 100 如果我将上面的代码更改为 c execute INSERT INTO numbers VALUE
杂乱的扭曲连接在不干净的时尚中消失了。没有代理。已经尝试过标题

我正在尝试抓取这个网站 https www5 apply2jobs com jupitermed ProfExt index cfm fuseaction mExternal searchJobs https www5 apply2jobs
在Python中删除带有重音符号的字符串中的所有非字母字符

我正在尝试使用 Python 3 7 从包含重音符号的字符串中删除所有非字母字符空格除外我尝试了以下方法 import re text 29 1981 4 2008 clean text re sub W d text print cl
Python 视频框架

我正在寻找一个 Python 框架它将使我能够播放视频并在该视频上绘图用于标记目的我尝试过 Pyglet 但这似乎效果不是特别好在现有视频上绘图时会出现闪烁即使使用双缓冲和所有这些好东西而且似乎没有办法在每帧回调期间获取视频中
如何在 Python 中从 HTML 页面中提取 URL [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我必须用Python 编写一个网络爬
Django 接受 AM/PM 作为表单输入

我试图弄清楚如何使用 DateTime 字段在 Django 中接受 am pm 作为时间格式但我遇到了一些麻烦我尝试在 forms py 文件中这样设置 pickup date time from DateTimeField inpu
如何正确消除字典中的元素直到只剩下一个字符串

我真的需要这方面的帮助 def get winner dict winner new dict for winner in dict winner first letter winner 0 value dict winner winner
在游戏中实现功能

我在完成这部分作业时遇到了麻烦我必须宣布游戏的获胜者然后输入到函数中输入所有 if 语句后我必须创建一个函数def playGame 这必须包括 showRules user getUserChoice computer getCo
Scala：如何获取数据框中的行范围

我有一个DataFrame通过运行创建sqlContext readParquet 文件的一个 The DataFrame由 300 M 行组成我需要使用这些行作为另一个函数的输入但我想以较小的批次进行操作以防止 OOM 错误目前
从数据集的给定日期范围中提取属于一天的数据

我有一个数据集日期范围为 2018 年 1 月 12 日到 8 月 3 日其中包含一些值维数为my df数据框是 my df shape 9752 2 每行包含半小时频率第一行开始于2018 01 12 my df iloc 0 D

随机推荐

tqdm 可以与数据库读取一起使用吗？

当从 SQL 数据库读取大型关系到 pandas 数据框时最好有一个进度条因为元组的数量是静态已知的并且可以估计 I O 速率它看起来像tqdm模块有一个功能tqdm pandas它将报告列上映射函数的进度但默认情况下调用它不会像
Linux下删除/重写/生成键盘事件

我想在 Linux 下挂钩拦截和生成键盘 make break 事件然后再将它们传递给任何应用程序更准确地说我想检测关键事件流中的模式并能够根据检测到的模式丢弃插入事件到流中我在 SO 上看到了一些相关问题但是它们要么只处
在 R 中，如何循环重复的 XML 节点，并将文本值保存在列表中？

我正在处理来自 ClinicalTrials gov 的 XML 文件其结构如下
Laravel 4：防止表单重新提交

我经历过这个question https stackoverflow com questions 17239586 laravel 4 prevent multiple form submissions csrf token 但发布的答案并
闪亮：updateSelectizeInput 抛出错误“$ 运算符对于原子向量无效”

我是闪亮的新手很难弄清楚这一点我试图在 selectizeInput 中创建一个全选按钮但在将输入从 selectizeInput 传递到 updateSelectizeInput 时遇到错误有人可以帮我解决这个问题吗当我从输
浏览器不使用元标记内容安全策略

我正在尝试通过一些 CDN 加载一些 css 和脚本以缩短加载时间但我遇到了内容安全策略问题但在阅读了相当长的时间并尝试了不同的策略后它仍然给出了相同的错误目前我的政策是这样的根据我的理解这意味着我可以从网站本身加载任何内容并
使图像适合表格单元格宽度百分比 (HTML)

我在 HTML 表格中组织了网站内容并为每个单元格设置了特定宽度以百分比表示现在我在组合单元格中有一个相当大的图像该图像应该跨越整个表格的 30 或者来自不同行的 2 个单元格每个单元格 15 使用 colspan 2 然而该
根据条件返回正确的 WSDL 客户端 - 相同的客户端但不同的命名空间

我有两个 WSDL 文件除了命名空间和端点之外它们几乎相同第一个点是测试系统第二个点是生产系统 TEST https sandbox dhl24 com pl webapi2 html https sandbox dhl24 com
正在创建多个不兼容的 InteractiveShellEmbed 子类实例

如果我安装Anaconda Python 发行版 http docs continuum io anaconda 并尝试运行ipython manage py shell从我的 Django 应用程序中抛出以下错误我知道当我安装 ana
以编程方式调用 WPF TargetedTriggerAction

我有一个来自第 3 方库的 TargetedTriggerAction 它希望在不将其附加到按钮的情况下进行调用调用我可以让它与按钮一起工作但我想这样做是为了响应一些非 UI 事件这是该操作的类声明 public class Mea
如何在颤振中围绕圆形头像创建虚线边框

我想在我的 Flutter 应用程序上显示类似 Instagram 的故事并希望通过使用用户头像周围的边框来显示用户上传的故事数量假设用户上传了 3 个故事我将在头像图像周围显示 3 条圆形边框线以相等数量的空格分隔如果用户上传
Symfony2：如何获取表单类中的配置参数

如果我在控制器内我可以使用以下命令轻松读取配置参数 this gt container gt getParameter profession 但是当我在其他类中时比如表单类型我如何获取配置参数 container new Contai
rxjava中的异常处理

我正在努力适应rxjava我想打电话给下面的人QuoteReader在可观察的我不确定如何处理抛出的异常 public class QuoteReader public Map
GNU make 更新 .d 文件时的确切事件链是什么？

考虑以下简单的 makefile List all object files objects main o foo o bar o baz o Define pattern rule for c gt o o c CC c CFLAGS l
打开新窗口和新选项卡的推文按钮

我正在做 FreeCodeCamp 的随机报价机练习 Using 这个答案 https stackoverflow com a 22962821 4956253 我尝试设置我的推文按钮来打开一个新窗口而不是用户可以用来发布此报价的选项卡
Hibernate 未保存值注释

我想强制 Hibernate 4 2 通过字段 VERSION 而不是字段 ID 检查对象持久性下面的 xml 应该可以工作
在 Github 操作管道上设置默认超时

通常我的管道需要 15 分钟才能执行最近由于一些奇怪的原因一些管道需要 45 分钟到 6 小时才会出现故障是否可以在 GitHub Action 的管道上设置默认超时限制例如 30 分钟后自动取消您可以通过两种方式更改默认时间
webkit-filter 打破溢出：隐藏

我似乎遇到了 Google Chrome 27 中引入的一个奇怪的渲染错误如果你有一个带有webkit filter和儿童元素overflow hidden该元素内的溢出内容不会按预期隐藏如中所示这个测试用例 http jsfiddle
E/libEGL：Nexus 9 + Android 6 上的 validate_display:255 错误 3008 (EGL_BAD_DISPLAY)

我正在 Cordova 3 4 中将一个旧的大型应用程序从 Eclipse 移植到 Android Studio 因为该应用程序使用的库现已在 Android 6 中更新在 build gradle 和 settings gradle 出
Pyspark 合并数据帧行，一个数组包含在另一个数组中

我什至不知道表达这些问题的最佳标题是什么我有以下数据集 df spark createDataFrame 1 2 3 4 1 2 3 2 1 3 2 3 4 1 6 7 cycle df show cycle 1 2 3 4 1 2 3

Pyspark 合并数据帧行，一个数组包含在另一个数组中

Pyspark 合并数据帧行，一个数组包含在另一个数组中 的相关文章

随机推荐

热门标签

Pyspark 合并数据帧行，一个数组包含在另一个数组中的相关文章