如何找到两个数组列之间的共同元素？

2024-04-30

我有两个以逗号分隔的字符串列（sourceAuthors and targetAuthors).

val df = Seq(
  ("Author1,Author2,Author3","Author2,Author3,Author1")
).toDF("source","target")

我想添加另一列nCommonAuthors与共同作者的数量。

我尝试通过这种方式做到这一点：

def myUDF = udf { (s1: String, s2: String) =>
  s1.split(",")
  s2.split(",")
  s1.intersect(s2).length
}
val newDF = myDF.withColumn("nCommonAuthors", myUDF($"source", $"target"))

我收到以下错误：

线程“main”中的异常 java.lang.UnsupportedOperationException：不支持类型 Unit 的架构

知道为什么我会收到此错误吗？如何找到两列之间的共同元素？

除非我误解了你的问题，否则有一些标准函数可以帮助你（这样你就不必编写 UDF），即split and array_intersect.

给定以下数据集：

val df = Seq(("Author1,Author2,Author3","Author2,Author3"))
  .toDF("source","target")
scala> df.show(false)
+-----------------------+---------------+
|source                 |target         |
+-----------------------+---------------+
|Author1,Author2,Author3|Author2,Author3|
+-----------------------+---------------+

您可以编写以下结构化查询：

val intersect = array_intersect(split('source, ","), split('target, ","))
val solution = df.select(intersect as "common_elements")
scala> solution.show(false)
+------------------+
|common_elements   |
+------------------+
|[Author2, Author3]|
+------------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

如何找到两个数组列之间的共同元素？的相关文章

Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
理解 scala 的 _ 与 Any/Nothing

如果一个类具有协变类型参数例如Iterable A http www scala lang org archives downloads distrib files nightly docs 2 10 1 library index ht
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
如何使用 FS2 中的分类器函数对对象进行分组？

我有一个无序的流measurements 我想将其分组为固定大小的批次以便以后可以有效地保留它们 val measurements for id lt Seq foo bar baz value lt 1 to 5 yield id va
SBT 对 Scala 类型感到困惑

SBT 抛出以下错误 value split is not a member of String String error filter arg gt arg split delimiter length gt 2 对于以下代码块 impl
将当前类作为 scala 中的参数传递

如何传递当前类作为参数在java中我们这样做 mymethod this class or mymethod MyClass class 如何将 scala 当前类传递给此方法 this getClass or classOf MyCla
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
如何使用精炼库定义 A 和 B 取决于彼此的类型类？

Problem 我有一个案例类 Passenger 从 A 点出发前往 B 点有效乘客意味着A点不等于B点 Passenger a Int b Int 问题我如何使用设计乘客舱refind https index scala lang
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
Scala 隐式转换范围问题

采取这个代码 class Register var value Int 0 def getZeroFlag Boolean value 0x80 0 object Register implicit def reg2int r Regist
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下
Slick 中的 Scala 枚举（案例对象），良好实践

假设我有一个代表一组几个有效状态的特征将对象存储在数据库中是一个好习惯吗存储 Int 并使用隐式函数 MappedColumnType base Int DoorState 将它们映射到 DoorState 会更好吗 trait Doo

随机推荐

具有 SSL 客户端证书的 iPhone 应用程序

我正在构建一个 iPhone 应用程序需要使用客户端证书通过 https 访问 Web 服务如果我将客户端证书 pkcs12 格式放入应用程序包中我就可以将其加载到应用程序中并进行 https 调用很大程度上要感谢 stackov
Security.h 中结构的 macOS 文档

我正在尝试使用Security h通过 Java 和 JNA 的 macOS 框架这意味着我需要将某些结构重建为 Java 类问题是当我查看文档中的结构时 this one https developer apple com refe
如何将温莎城堡与 ASP.Net Web 表单一起使用？

我正在尝试将 Windsor 的依赖注入连接到标准的 asp net Web 表单我想我已经使用 HttpModule 和 CustomAttribute 代码如下所示实现了这一点尽管该解决方案似乎有点笨拙并且想知道 Windsor
按广度优先顺序列出目录所有内容导致效率低下

我编写了一个 Haskell 模块来按广度优先顺序列出目录的所有内容下面是源代码 module DirElements dirElem where import System Directory getDirectoryContents
Sinon.js 结合 CalledWith 次数

我知道与sinon js https sinonjs org您可以测试间谍是否被呼叫一定次数 sinon assert calledTwice mySpy someMethod 您可以测试是否使用某些参数调用了间谍 sinon assert
像 Java 一样覆盖 Objective-C 类中的方法

我经常使用此语句来扩展类而不需要编写整个单独的文件假设 ClassFromFramework 是库中包含的框架的一部分的类 public ClassFromFramework public String myMethod operati
使用特定区域设置启动 Google Chrome（使用命令行参数）

如何使用命令行参数以特定区域设置启动 Google Chrome 根据http peter sh experiments chromium command line switches http peter sh experiments ch
MIME 类型/内容类型，用于在 IE 和 Firefox 中使用 Excel 打开 CSV 文件

我在 Excel 中识别并打开 CSV 输出时遇到问题在我的 Web 应用程序中我有一个 java servlet 它将搜索结果返回给用户搜索结果由 Apache Solr 服务器提供 GUI 前端有一个选项允许用户请求 CSV 格
生成唯一随机数的智能方法

我想生成 00000001 到 99999999 范围内的唯一随机数序列所以第一个可能是 00001010 第二个可能是 40002928 等等最简单的方法是生成一个随机数并将其存储在数据库中下次再执行一次并检查数据库中该数字是否已存
使用概率选择数组值

我还有一个作业要做那就是从黄色蓝色和红色中随机选择一种颜色概率为黄色 3 7 蓝色 1 7 红色 3 7 我知道我可以通过使用类似的方法来解决这个问题黄黄黄蓝红红红但我认为这在编程上不是很好因为当我碰巧发生这种情况时我将不
C++ 模板类问题中的类型条件

使用海湾合作委员会4 2 我有这个条件类型的元模板 template
Phong 着色问题

我正在根据以下内容编写着色器冯模型 http en wikipedia org wiki Phong reflection model 我正在尝试实现这个方程其中 n 是法线 l 是光线方向 v 是相机方向 r 是光反射维基百科文章中更
facebook 发送 API 错误代码：100 API 错误描述：无效参数错误消息：“链接”无效

我正在使用 facebook post GRAPH UI 来发布私人消息并链接到我在 facebook 中的应用程序早些时候它工作正常但从最近两天开始对话框开始抛出错误发生错误请稍后再试 API错误代码 100API错误描述无
为什么 typeof 函数在 C 中不起作用

我使用GCC编译器版本9 2 0 我想在 C 中使用 typeof 函数但它会引发错误错误 typeof 之前的预期表达式如果您需要更多信息请询问我 int a 5 double b the expected result is
Angular 2 材料垫片尺寸

我有下面的代码
如何使用 .NET 压缩目录？

我有一个包含多个文件的目录我想将此文件夹压缩为 zip 或 tar gz 文件我怎样才能用 C 完成他的工作您可以使用DotNetZip 库 http www codeplex com DotNetZip 它有相当丰富和有用的功能 E
覆盖 Chrome 扩展页面 CSS

我正在尝试使用 Chrome 扩展程序页面上的时尚扩展程序但由于某种原因它不起作用我试图用谷歌搜索这个但我只得到关于使用扩展覆盖 CSS 的答案而不是覆盖 Chrome 扩展页面有什么想法为什么它不起作用吗或者我怎样才能强迫它
如何在 Spring WS 中配置双向 SSL 连接，而不使用 Spring boot 和使用单独的 Apache tomcat 服务器？

我需要以双向 SSL 连接安全机制向服务器发送 Soap 请求消息并处理来自服务器的 Soap 响应我正在使用 Spring MVC 和 Spring ws 后者完全使用注释进行配置并且需要配置两种方式 SSL 连接以将肥皂请求发送到
如何给背景图片指定alt和标题？

如何给背景图片指定alt和标题是否可以 div div cont background FFF url images post png no repeat 您不能为 css 背景指定 alt 和标题但可以为 div 指定标题 div t
如何找到两个数组列之间的共同元素？

我有两个以逗号分隔的字符串列 sourceAuthors and targetAuthors val df Seq Author1 Author2 Author3 Author2 Author3 Author1 toDF source ta

如何找到两个数组列之间的共同元素？

如何找到两个数组列之间的共同元素？ 的相关文章

随机推荐

热门标签

如何找到两个数组列之间的共同元素？的相关文章