MinHash Spark ML 中与 OR 条件的字符串相似度

2023-11-30

我有两个数据集，第一个是大型参考数据集，第二个数据集将通过 MinHash 算法从第一个数据集找到最佳匹配。

val dataset1 = 
+-------------+----------+------+------+-----------------------+
|           x'|        y'|    a'|    b'|   dataString(x'+y'+a')|
+-------------+----------+------+------+-----------------------+
|         John|     Smith| 55649| 28200|       John|Smith|55649|
|         Emma|   Morales| 78439| 34200|     Emma|Morales|78439|
|        Janet|  Alvarado| 89488| 29103|   Janet|Alvarado|89488|
|    Elizabeth|         K| 36935| 38101|      Elizabeth|K|36935|
|      Cristin|      Cruz| 75716| 70015|     Cristin|Cruz|75716|
|         Jack|   Colello| 94552| 15609|     Jack|Colello|94552|
|     Anatolie|     Trifa| 63011| 51181|   Anatolie|Trifa|63011|
|      Jaromir|      Plch| 51237| 91798|     Jaromir|Plch|51237|
+-------------+----------+------+------+-----------------------+

// very_large
val dataset2 =
+-------------+----------+------+-----------------------+
|            x|         y|     a|      dataString(x+y+a)|
+-------------+----------+------+-----------------------+
|         John|     Smith| 28200|       John|Smith|28200|
|         Emma|   Morales| 17706|     Emma|Morales|17706|
|        Janet|  Alvarado| 98809|   Janet|Alvarado|98809|
|    Elizabeth|   Keatley| 36935|Elizabeth|Keatley|36935|
|     Cristina|      Cruz| 75716|    Cristina|Cruz|75716|
|         Jake|   Colello| 15609|     Jake|Colello|15609|
|     Anatolie|     Trifa| 63011|   Anatolie|Trifa|63011|
|         Rune|      Eide| 41907|        Rune|Eide|41907|
|    Hortensia|   Brumaru| 33836|Hortensia|Brumaru|33836|
|       Adrien|     Payet| 40463|     Adrien|Payet|40463|
|       Ashley|    Howard| 12445|    Ashley|Howard|12445|
|       Pamela|      Dean| 81311|      Pamela|Dean|81311|
|        Laura|     Calvo| 82682|      Laura|Calvo|82682|
|        Flora|   Parghel| 81206|    Flora|Parghel|81206|
|      Jaromír|      Plch| 91798|     Jaromír|Plch|91798|
+-------------+----------+------+-----------------------+

为了字符串的相似性，创建了| （管道）分开的 dataString.

这是相似度查找的代码dataString (x' + y' + a') and dataString(x + y + a)运行良好，

val tokenizer = new RegexTokenizer().setPattern("\\|").setInputCol("dataString").setOutputCol("dataStringWords")
val vectorizer = new CountVectorizer().setInputCol("dataStringWords").setOutputCol("features")

val pipelineTV = new Pipeline().setStages(Array(tokenizer, vectorizer))
val modelTV = pipelineTV.fit(dataset1)

val isNoneZeroVector = udf({v: Vector => v.numNonzeros > 0}, DataTypes.BooleanType)

val dataset1_TV = modelTV.transform(dataset1).filter(isNoneZeroVector(col("features")))
val dataset2_TV = modelTV.transform(dataset2).filter(isNoneZeroVector(col("features")))

val lsh = new MinHashLSH().setNumHashTables(20).setInputCol("features").setOutputCol("hashValues")
val pipelineLSH = new Pipeline().setStages(Array(lsh))
val modelLSH = pipelineLSH.fit(dataset1_TV)

val dataset1_LSH = modelLSH.transform(dataset1_TV)
val dataset2_LSH = modelLSH.transform(dataset2_TV)

val finalResult = modelLSH.stages.last.asInstanceOf[MinHashLSHModel].approxSimilarityJoin(dataset1_LSH, dataset2_LSH, 0.5)
finalResult.show

如上所述，代码给出了完美的结果，但我的要求是，我必须比较a with a' OR b', ie.

x' + y' + (a' OR b')
x  + y  + (   a    )

这里我不能连接这两个数据集，因为它们没有公共字段，否则它将是交叉连接。

那么在 Apache Spark 2.2.0 中，有没有什么方法可以在分组数据中通过 OR 条件实现字符串相似度。

我认为不可能设置两个输入列（一个dataString每个使用的元素的列a' or b'）然后在计算时使用 OR 但你可以转换dataset1来代表两者x' + y' + a' and x' + y' + b'变体，然后进行距离计算。它不会给你与你选择时完全相同的答案a' or b'基于中的相应行dataset2（我想你知道如何做那个昂贵的操作）但仍然给人一些相似感。

val dataset1splitted =
    dataset1
    .withColumn( "a", explode( array( "a'", "b'" ) ) )
    .drop( "a'", "b'", "dataString" )
    .withColumn( "dataString", concat_ws( "|", $"x'", $"y'", $"a" ) )

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparkmllib

apachesparkml

minhash

MinHash Spark ML 中与 OR 条件的字符串相似度的相关文章

Scalaz 7 Iteratee 处理大型 zip 文件（OutOfMemoryError）

我正在尝试使用 scalaz iteratee 包在恒定空间中处理大型 zip 文件我需要对 zip 文件中的每个文件执行一个长时间运行的进程这些进程可以并且应该并行运行我创建了一个EnumeratorT使每个膨胀ZipEntry
Scala 重载构造函数和 super

我无法理解如何在 Java 上开发类似于以下的 Scala 代码 public abstract class A protected A protected A int a public abstract class B protected
为 Spark Thrift 服务器提供仓库目录的路径

我已经设置了 Spark 集群并且成功通过 Spark SQL 连接器连接 Tableau 我从 Spark shell 创建了表并使用 saveAsTable 如何访问从 Tableau 保存的表启动spark thrift服务器时
将列表拆分为多个具有固定元素数量的列表

如何将元素列表拆分为最多包含 N 个项目的列表例如给定一个包含 7 个元素的列表创建 4 个组最后一组可能包含较少的元素 split List 1 2 3 4 5 6 seven 4 gt List List 1 2 3 4 Lis
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
使用 Spark pandas_udf 创建列，具有动态数量的输入列

我有这个 df df spark createDataFrame row a 5 0 0 0 11 0 row b 3394 0 0 0 4543 0 row c 136111 0 0 0 219255 0 row d 0 0 0 0 0
Scala 组合器解析器 - 区分数字字符串和变量字符串

我正在做 Cay Horstmann 的组合器解析器练习我想知道区分代表数字的字符串和代表匹配语句中变量的字符串的最佳方法 def factor Parser ExprTree wholeNumber expr ident case a
IntelliJ IDEA Scala 插件问题

我对新的 Intellij IDEA 10 和 Scala 插件有疑问当我在 Scala 源文件中输入任何内容时编辑器会永久冻结在其他文件 java 和其他编辑器中效果很好结构视图 scala 检查和显示成员功能已关闭堆大小增加
Scala：如何编写将类型化为接收者的实现类型的对象返回的方法

我知道 Scala 中不推荐使用案例类继承但为了简单起见我在以下示例中使用了它 scala gt case class Foo val f String def foo g String Foo this copy f g define
我想使用 EtherPad（或克隆版本）。我的站点正在运行 Ruby on Rails。 API 还是本地安装？

我想在我的网站上使用 etherpad 界面两个问题 1 是否有任何带有 etherpad api 的网站可以让我远程调用 2 如果没有安装scala并让两者同时运行有多麻烦 Thanks 查看http piratepad net ht
Scala - 如何解决“值不是 Nothing 的成员”错误

此示例代码基于 Atmosphere 类但如果有人可以让我了解该错误的一般含义我想我可以找出任何特定于 Atmosphere 的解决方案 val bc BroadcasterFactory getDefault lookup broad
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
Scala 相当于 Java 的 Number

我正在尝试为数值域类型构建类型层次结构例如AYear is an Int 这是一个Number a Percentage is a Double 这是一个Number等等我需要层次结构以便我可以调用toInt or toDouble关于
Scala Array.apply 有何魔力

来自 scala 2 10 4 的 array scala Array定义为 final class Array T length Int extends java io Serializable with java lang Clonea
使用原始类型模拟案例类

考虑以下类型结构 trait HasId T def id T case class Entity id Long extends HasId Long 比方说我们想在一些测试中模拟实体类 val entityMock mock Enti
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过

随机推荐

Typescript - “字符串”类型的表达式不能用于索引类型

common js const boxNames one two module exports boxNames const common require common js const boxNames common boxNames c
在 Eclipse 中使用支持设计库

我正在开发一个项目遗憾的是尚未迁移到 Android Studio 我想利用 Google 新的 support design 库中的浮动操作按钮但我无法将其包含在我的项目中我更新了 Android SDK 管理器中的支持库首先我
附近查询与内部查询

我使用 MongoDB 查询纬度经度 25 英里以内的房屋我第一次尝试使用近命令来执行此操作如下所示 var near Query Near Coordinates coordinates Latitude coordinates L
Golang：当您具有多重继承时，接口的意义是什么[关闭]

Closed 这个问题是基于意见的目前不接受答案我是一名 Java 程序员正在学习 Go 编程到目前为止我真的很喜欢这门语言比 Java 多得多但有一件事我有点困惑 Java之所以有接口是因为类只能从一个类继承既然Go允许
Ant unzip/unwar 目录名与文件名相同

我需要使用 ANT 构建脚本在 tomcat webapps 目录中解压缩一个 war 文件 war 文件名不固定如何将其解压到与war文件名相同的目录中我知道如何解压缩文件但问题是它将内容解压缩到指定的目标目录中如果我不知道目录名
iOS 8 中的 SKSpriteNode 池似乎分配给重叠内存

我可能错过了一些东西但是我当前在应用商店中的应用程序可以在 iOS 7 中运行但在 iOS 8 中完全失败因为它不会创建预分配的精灵池它们似乎被写入相同的地址除非精灵具有特别不同的属性在 iOS 7 中以下代码生成包含 4 个
如何解析 Google 地图地理编码结果

我想使用地理编码从给定的纬度和经度检索地理地址使用网站上给定的示例在这个例子中我只需要城市名称纽约和国家名称即美国但问题是出现的次数不止一种这些词作为long name 我的问题是如何在 php 中解析这个 json xml 以获取
单元测试中的随机数据？

我有一位同事为对象编写单元测试这些对象用随机数据填充其字段他的原因是它提供了更广泛的测试范围因为它将测试许多不同的值而普通测试仅使用单个静态值我给了他很多不同的反对理由主要是随机值意味着测试并不是真正可重复的这也意味着如果测
Kafka批量侦听器反序列化消息不正确

我正在使用具有以下配置的批量侦听但我的消息错误地反序列化 KafkaListener id kafka buyers product sales pricing id topics kafka buyers product sales p
Cordova/phonegap 项目中的“需要”异常

我正在尝试在 Android 平台上使用 Phonegap Cordova 构建混合移动应用程序我也成功了该应用程序在我的 Chrome 浏览器中的 Ripple 模拟器中按预期工作我没有使用 Eclipe ADT 或 Android
如何修复 Angular 5 中的 CORS 问题 http 请求 [重复]

这个问题在这里已经有答案了我是 Angular 5 的新手我想发送 http 请求但它在检查元素中返回 CORS 错误 Error XMLHttpRequest 无法加载http example com account create
AddToRole 和 IdentityRole 不是当前上下文模型的一部分

我正在使用 Identity 2 1 来处理我的 asp net 应用程序中的用户角色到目前为止一切顺利我创建了从 IdentityDBContext 扩展的新上下文扩展了 IdentityUser 和 IdentityRole 以
找不到文件 *.storyboardc

I am trying to submit iOS app with extension but get a weird error on validation 我的小部件故事板名为 Main storyboard 属性文件如下所示我猜这
htaccess 不允许访问带参数的子目录

我正在尝试为 seo url 创建 htaccess 我创建了 htaccess 所有 url 都工作正常排除带参数的子文件夹它们重定向到站点文件夹 sitefolder是我的根目录所有文件都在那里示例网址应如下所示 http l
从数据库填充下拉列表并设置默认值

现在我有一个用于填充 HTML 的可行解决方案
解析 python imaplib 中的括号列表

我正在寻找简单的方法来将 IMAP 响应中的括号列表拆分为 Python 列表或元组我想去从 BODYSTRUCTURE text plain charset ISO 8859 1 NIL NIL quoted printable 120
复制网页浏览器控件中的所有文本

是否可以从导航到的网站中抓取所有文本WebBrowser不看源码就能控制当人们不需要标题或网页的非主要部分中的任何信息时大卫沃克的方法非常有用如果需要内部文本之外的内容只有两种选择一种是使用 getElement 进行解析另一
使用 Tkinter 处理未捕获的异常

在我的 Tkinter Python 应用程序中我尝试使用sys excepthook处理未捕获的异常但我的处理程序从未被调用堆栈跟踪仍然打印出来如何处理 Tkinter 应用程序中未捕获的异常这是一个简单的例子展示了我的尝试
将 StringVector 与 Rcpp 连接

我不知道如何用 Rcpp 连接 2 个字符串虽然我怀疑有一个明显的答案但文档对我没有帮助 http gallery rcpp org articles working with Rcpp StringVector http galler
MinHash Spark ML 中与 OR 条件的字符串相似度

我有两个数据集第一个是大型参考数据集第二个数据集将通过 MinHash 算法从第一个数据集找到最佳匹配 val dataset1 x y a b dataString x y a John Smith 55649 28200 John

MinHash Spark ML 中与 OR 条件的字符串相似度

MinHash Spark ML 中与 OR 条件的字符串相似度 的相关文章

随机推荐

热门标签

MinHash Spark ML 中与 OR 条件的字符串相似度的相关文章