pyspark加入多个条件

2024-05-19

我如何指定很多条件当我使用pyspark时.join()

例子：与蜂巢：

query= "select a.NUMCNT,b.NUMCNT as RNUMCNT ,a.POLE,b.POLE as RPOLE,a.ACTIVITE,b.ACTIVITE as RACTIVITE FROM rapexp201412 b \
    join rapexp201412 a where (a.NUMCNT=b.NUMCNT and a.ACTIVITE = b.ACTIVITE and a.POLE =b.POLE  )\

但在 PySpark 中我不知道如何制作它，因为以下原因：

df_rapexp201412.join(df_aeveh,df_rapexp2014.ACTIVITE==df_rapexp2014.ACTIVITE and df_rapexp2014.POLE==df_aeveh.POLE,'inner')

这是行不通的！！

引用spark文档：

(https://spark.apache.org/docs/1.5.2/api/python/pyspark.sql.html?highlight=dataframe%20join#pyspark.sql.DataFrame.join https://spark.apache.org/docs/1.5.2/api/python/pyspark.sql.html?highlight=dataframe%20join#pyspark.sql.DataFrame.join)

join(other, on=None, how=None) 使用另一个 DataFrame 连接给定连接表达式。

以下在 df1 和 df2 之间执行完整外连接。

参数： other – 连接的右侧 on – 用于连接的字符串列名、列名列表、连接表达式 (Column) 或列列表。如果 on 是一个字符串或字符串列表，则指示连接列的名称，该列必须存在于两侧，这执行了内部等连接。 how – str，默认“内部”。一内连接、外连接、左外连接、右外连接、半连接。

>>> df.join(df2, df.name == df2.name, 'outer').select(df.name, df2.height).collect()
 [Row(name=None, height=80), Row(name=u'Alice', height=None), Row(name=u'Bob', height=85)]


>>> cond = [df.name == df3.name, df.age == df3.age]
>>> df.join(df3, cond, 'outer').select(df.name, df3.age).collect()
[Row(name=u'Bob', age=5), Row(name=u'Alice', age=2)]

因此，您需要像上一个示例一样使用“条件作为列表”选项。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

pyspark加入多个条件的相关文章

为 Spark Thrift 服务器提供仓库目录的路径

我已经设置了 Spark 集群并且成功通过 Spark SQL 连接器连接 Tableau 我从 Spark shell 创建了表并使用 saveAsTable 如何访问从 Tableau 保存的表启动spark thrift服务器时
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
Spark：用列的平均值替换数据框中的空值

如何创建 UDF 以编程方式将每列中 Spark 数据框中的空值替换为列平均值例如在示例中数据 col1 空值的值为 2 4 6 8 5 5 5 示例数据 col1 col2 col3 2 null 3 4 3 3 6 5 null
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
如何在 apache Spark 作业中执行阻塞 IO？

如果当我遍历 RDD 时我需要通过调用外部阻塞服务来计算数据集中的值怎么办您认为如何才能实现这一目标值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表但由于

随机推荐

为什么将函数参数声明为最终的？

我目前正在阅读 Sams 出版的 24 小时自学 Android 应用程序开发一书我对 Java Android 或其他方面还比较陌生我对 ActionScript 3 有非常扎实的背景它与 Java 有足够的相似之处因此该语言本
Seaborn 将 xticks 从 float 更改为 int

我正在绘制一个图表其中seaborn为sns pylab为plt plt figure figsize 10 10 sns barplot y whatever y x whatever x data mydata plt xticks
管道：多个流消费者

我编写了一个程序来计算语料库中 NGram 的频率我已经有一个函数它消耗一串令牌并生成一个订单的 NGram ngram Monad m gt Int gt Conduit t m t trigrams ngram 3 countFre
java ee - 使用 servlet 对用户进行身份验证

我刚刚开始学习java 还没有接触过java ee 我需要使用 servlet 来验证用户身份请提供示例代码和技术文献谢谢你创建一个接受用户名密码的 html 表单将这些数据发布到 servlet 在 doPost 中读取这些数据
我希望 jQuery 验证器向表单元素的父级添加一个类

我该如何使用jQuery 验证器 http docs jquery com Plugins Validation添加删除类名例如validate 在表单元素的父元素上 li 这样我就可以通过仅设置一个类名来设置与该元素相关的所有内容的样
从 search.push 函数中的 DataTables 获取“数据排序”正交值

我正在循环其中的行 fn dataTable ext search push函数根据许多条件选择一些行我正在设置一些值TD的表称为正交 https datatables net manual data orthogonal data数据
为什么 Slack 会导致 Windows 10 BSOD？

每次我从睡眠状态恢复笔记本电脑时我都会遇到 BSOD 我已经使用分析了小型转储WinDbg并且引起的过程总是Slack exe 我用谷歌搜索了一下我发现了https www tenforums com bsod crashes debug
使用 Java 进行树可视化 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个库来生成图形或树例如组织图表该库应该能够从该图中生成纯图像有谁知道一个好的希望开源
检查字符串是否是哈希值

我正在使用 SHA 512 来散列我的密码当然还有盐我认为我想要的不可能但无论如何我们还是要问一下有没有办法检查字符串是否已经是 SHA 512 或其他算法哈希值当用户登录时我想检查他的密码如果它仍然是纯文本则应将其转换为
Jquery UI 可调整大小的问题超出了遏制范围（也使用了可拖动）

我面临的问题是 div 的可调整大小当我将它与 Draggable 一起使用时它会出现问题并且无法调整其宽度方向的大小如果我单独使用可调整大小那就没问题了但我需要让它与可拖动功能一起使用请建议单击演示的 jsFiddle 链接
在 Google 表格脚本中设置活动单元格的值

我想创建一个公式在某个单元格更改上创建时间戳下面的代码就可以了我现在想做的是将公式转换为纯文本将该时间戳锚定到工作表上如果您手动执行此操作您将选择时间戳复制它们并将它们粘贴为值我不想手动执行此操作因此我创建了下面的脚本它
使用 XProc 进行 XML 流处理

我正在玩xproc http www w3 org TR xproc XML 管道语言和http xmlcalabash com http xmlcalabash com 我想找到一个流式传输大型 xml 文档的示例例如给定以下内容hu
Cakedc.users => 总是重定向到主页

我在新的 Cakephp 安装上使用插件 CakeDC Users 我有两个控制器 PagesController php CardsController php Pages 有 1 个操作 Beta 它是主页 Cards 有两个操作索引
使用 jQuery 选择具有数据属性的元素为其父元素分配一个 null ID

这确实很奇怪如果我使用 jQuery find 在滚动事件期间查找具有数据属性的子元素然后滚动页面将重复添加和删除 IDparents这些元素这很难描述但这里有一个可重现的测试用例 http jsfiddle net 8fouvx9
OpenCPU 中长时间运行作业的任务模型？

据我所知 OpenCPU中没有任务模型即必须在打开的 TCP 连接上等待任意长时间直到请求完成任务模型实现的一种可能性是返回带有状态的专用任务 uri200 OK立即为POST当一个人希望运行一个函数时发出请求优点是当作业在后台服
如何在 cv2.VideoWriter 中使用 FPS 参数？

好的所以我正在制作视频我想确切地知道如何使用 FPS 参数它是一个浮点数所以我假设这是我想要的每帧之间的间隔你能给个例子吗我只想知道视频会如何随着 FPS 参数值的变化而变化因为我制作的视频现在太快了谢谢确实只是这样 fr
自定义类的重写 bool() [重复]

这个问题在这里已经有答案了我想要的只是 bool myInstance 返回 False 并且 myInstance 在 if or and 等条件下计算为 False 我知道如何覆盖 gt 我试过这个 class test def bo
Spring Boot，Websockets无法从Session获取用户（即java.security.Principal）

与一起工作Spring Boot 1 2 1 RELEASE and Spring Websockets 运行嵌入式时存在部署运行时问题Jetty 9 我不能伪造用户 java security Principal 当应用程序部署在本地主
在自定义对象中创建时粘性服务不会重新启动

我有一个具有绑定服务的单例对象我希望它重新启动当我从启动器启动应用程序时单例对象将初始化并绑定到这个现有的服务实例以下是在单例中创建和绑定服务的代码 public class MyState private static MySta
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT

pyspark加入多个条件

pyspark加入多个条件 的相关文章

随机推荐

热门标签

pyspark加入多个条件的相关文章