PySpark DataFrame - 动态连接多个列

2024-01-30

假设我在 Spark 上有两个 DataFrame

firstdf = sqlContext.createDataFrame([{'firstdf-id':1,'firstdf-column1':2,'firstdf-column2':3,'firstdf-column3':4}, \
{'firstdf-id':2,'firstdf-column1':3,'firstdf-column2':4,'firstdf-column3':5}])

seconddf = sqlContext.createDataFrame([{'seconddf-id':1,'seconddf-column1':2,'seconddf-column2':4,'seconddf-column3':5}, \
{'seconddf-id':2,'seconddf-column1':6,'seconddf-column2':7,'seconddf-column3':8}])

现在我想通过多列（任何大于一的数字）将它们连接起来

我拥有的是第一个 DataFrame 的列数组和第二个 DataFrame 的列数组，这些数组具有相同的大小，并且我想按这些数组中指定的列进行连接。例如：

columnsFirstDf = ['firstdf-id', 'firstdf-column1']
columnsSecondDf = ['seconddf-id', 'seconddf-column1']

由于这些数组的大小可变，我不能使用这种方法：

from pyspark.sql.functions import *

firstdf.join(seconddf, \
    (col(columnsFirstDf[0]) == col(columnsSecondDf[0])) &
    (col(columnsFirstDf[1]) == col(columnsSecondDf[1])), \
    'inner'
)

有什么方法可以动态加入多个列吗？

为什么不使用简单的理解：

firstdf.join(
    seconddf, 
   [col(f) == col(s) for (f, s) in zip(columnsFirstDf, columnsSecondDf)], 
   "inner"
)

由于您使用逻辑，因此提供条件列表就足够了，而无需&操作员。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

DataFrame

PySpark

apachesparksql

PySpark DataFrame - 动态连接多个列的相关文章

如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

Twitter Bootstrap：如何关闭模式对话框？

我正在尝试使用 Twitter 的引导程序实现模式加载对话框我目前的尝试是 document ready function loading dialog ajaxStart function this modal show ajaxSto
如何让会话实体作为 Dialogflow 检测意图的一部分

我有一个实体应该使用特定于用户的信息在每个会话的基础上进行更新当我使用 Dialogflow v1 时这有效我认为它也适用于 v2 但我现在遇到了严重的问题我相信我正确设置了会话实体信息但对于使用它的意图它仅在使用开发人员实体
Laravel 中的 Bcrypt 与 Hash

我想创建一个函数或类似 Cron 的东西来执行链接在 Laravel 中并带有密码之类的东西我有两个解决方案但使用哪一种更好选项 1 哈希
用于桌面应用程序回归测试的自动化测试工具[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在开发一个使用 Infragistic 网格的桌面应用程序我们需要自动化回归测试仅 QTP 不支
获取 LNK1107 无效或损坏的文件：尝试为 OpenSceneGraph 教程链接 .dll 时无法读取 0x378

我正在尝试在 Visual Studio 上设置 OpenSceneGraph 以便我可以运行一些教程我相信我的问题是我不知道如何在 Visual Studio 上正确设置环境并让程序查看库文件正确有问题的代码仅用于 osg 智能指针演
ORA-00907: 缺少右括号

过去两天我一直在查看这段代码但似乎无法让它工作它不断地给我 ORA 00907 missing right parenthesis 我知道这是一个经常出现的话题但由于某种原因我见过的例子都没有对我有帮助有人可以告诉我为什么会出现此
在 Google BigQuery API 中，查询响应的默认超时是多少？

在 Google BigQuery API 中查询响应的默认超时是多少换句话说对于未完成的作业默认等待多长时间直到响应返回 null 的文档timeoutMs https cloud google com bigquery docs
Mongodb 与 Python 的“set()”类型

我正在构建一个以 mongoDB 作为后端的网络应用程序某些文档需要将项目集合存储在某种列表中然后系统需要经常检查该列表中是否存在指定的项目使用 Python 的 in 运算符需要 Big O N 时间 n 是列表的大小由于这些列表
SQL Server 和消息队列

我正在尝试构建一个可靠的消息服务或者至少我是这么描述它的这是我的问题我有一个表我将数据插入到该表中我至少有两个应用程序从该表中选择数据但是我需要一种可靠的方法让两个不同的应用程序在任何给定时间都不会选择相同的行我将如何编写
无法通过多重采样渲染到纹理

我运行了帧缓冲区示例this http www open gl framebuffers page 原始代码 http www open gl content code c6 base txt 在osx 10 8中的xcode 4 6中使用
在 R 中使用插入符号进行逐步回归[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我在R中使用了leaps包来执行前向和后向特征消除但是我希望自动化交叉验证和预测操作因此如何在插入符号中使用向前向后选择在
图像检测功能：SIFT、HISTOGRAM 和 EDGE

我正在致力于使用 3 种不同的功能即 SIFT HISTOGRAM 和 EGDE 来开发对象分类器然而这 3 个特征具有不同的维度向量例如SIFT 128 维历史记录 256 现在由于大小不同这些特征无法连接成一个向量我打算
由于资源文件权限被拒绝，Cocos2D-x HelloCpp for Android 无法从 Windows 构建 apk

我试图在 Android 上运行 cocos2dx HelloCpp 示例项目从 Windows 7 64 位和 Cygwin 64 位构建但是每次我尝试构建和运行时它都会抱怨资产中的 Marker Felt fnt 文件的权限被拒
Heroku 上的 Flask：request.form 对于大量 POST 数据非常慢？

我正在 Heroku 上使用带有 eventlet 工作人员的 Gunicorn 运行 Flask 应用程序我的应用程序上的特定路由经常接收 POST 数据 x www form urlencoded 其中包含一些相当大的字段最多大约
导入 httplib 导入错误：没有名为 httplib 的模块

运行 test py 时出现此错误 C Python32 gt python exe test py Traceback most recent call last File test py line 5 in
将带有嵌入括号的字符串转换为字典

从如下所示的字符串构建字典的最佳方法是什么 key1 value1 key2 value2 key3 value with spaces 所以键始终是不带空格的字符串但值是字符串或大括号中的字符串有空格你会如何把它写成 key1 va
Docker 和 Chromium net::ERR_NETWORK_CHANGED

我有一个 AngularJS 应用程序它执行 ajax 调用但会导致 chromium 错误 net ERR NETWORK CHANGED 我尝试禁用任何我不需要的适配器我有多个容器和多个正在运行的 dockers 容器我在每个适
如果 Kotlin 中的类型参数受另一个类型参数限制，为什么它不能有任何其他限制？

这是显示此问题的最小演示代码 interface A fun
为什么 WebStorm 实时编辑在 Chrome 中不起作用？

我正在探索 WebStorm 的试用版并希望使用 LiveEdit 功能执行以下操作后我无法使用 LiveEdit 功能确保 LiveEdit 已打开安装了 Chrome 扩展程序安装扩展后重新启动浏览器我仍然怀疑它不是必需的
PySpark DataFrame - 动态连接多个列

假设我在 Spark 上有两个 DataFrame firstdf sqlContext createDataFrame firstdf id 1 firstdf column1 2 firstdf column2 3 firstdf co

PySpark DataFrame - 动态连接多个列

PySpark DataFrame - 动态连接多个列 的相关文章

随机推荐

热门标签

PySpark DataFrame - 动态连接多个列的相关文章