基于 R 中字符串比较的相似度分数（编辑距离）

2024-03-05

我正在尝试根据两个字符串之间的比较来分配相似度分数。 R 中是否有相同的函数。我知道 SAS 中有一个名为 SPEDIS 的函数。如果R中有这样的函数，请告诉我。

功能adist http://stat.ethz.ch/R-manual/R-patched/library/utils/html/adist.html计算编辑距离 http://en.wikipedia.org/wiki/Levenshtein_distance两根弦之间。这可以转换为相似性度量，即 1 -（Levenshtein 编辑距离/较长的字符串长度）。

The levenshteinSim函数在记录联动 http://cran.r-project.org/web/packages/RecordLinkage/index.html包也直接执行此操作，并且可能比adist.

library(RecordLinkage)
> levenshteinSim("apple", "apple")
[1] 1
> levenshteinSim("apple", "aaple")
[1] 0.8
> levenshteinSim("apple", "appled")
[1] 0.8333333
> levenshteinSim("appl", "apple")
[1] 0.8

预计到达时间：有趣的是，虽然levenshteinDistRecordLinkage 包中的速度似乎比adist, levenshteinSim比任何一个都慢得多。使用基准测试 http://cran.r-project.org/web/packages/rbenchmark/index.html包裹：

> benchmark(levenshteinDist("applesauce", "aaplesauce"), replications=100000)
                                         test replications elapsed relative
1 levenshteinDist("applesauce", "aaplesauce")       100000   4.012        1
  user.self sys.self user.child sys.child
1     3.583    0.452          0         0
> benchmark(adist("applesauce", "aaplesauce"), replications=100000)
                               test replications elapsed relative user.self
1 adist("applesauce", "aaplesauce")       100000   4.277        1     3.707
  sys.self user.child sys.child
1    0.461          0         0
> benchmark(levenshteinSim("applesauce", "aaplesauce"), replications=100000)
                                        test replications elapsed relative
1 levenshteinSim("applesauce", "aaplesauce")       100000   7.206        1
  user.self sys.self user.child sys.child
1      6.49    0.743          0         0

此开销仅归因于以下代码levenshteinSim，这只是一个包装levenshteinDist:

> levenshteinSim
function (str1, str2) 
{
    return(1 - (levenshteinDist(str1, str2)/pmax(nchar(str1), 
        nchar(str2))))
}

仅供参考：如果您总是比较两个字符串而不是向量，您可以创建一个使用的新版本max代替pmax并将运行时间缩短约 25%：

mylevsim = function (str1, str2) 
{
    return(1 - (levenshteinDist(str1, str2)/max(nchar(str1), 
        nchar(str2))))
}
> benchmark(mylevsim("applesauce", "aaplesauce"), replications=100000)
                                  test replications elapsed relative user.self
1 mylevsim("applesauce", "aaplesauce")       100000   5.608        1     4.987
  sys.self user.child sys.child
1    0.627          0         0

长话短说——两者之间几乎没有什么区别adist and levenshteinDist就性能而言，如果您不想添加包依赖项，则前者更可取。如何将其转变为相似性度量确实会对性能产生一些影响。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

基于 R 中字符串比较的相似度分数（编辑距离）的相关文章

无效的命令名称“tk_chooseDirectory”错误

我使用 bioconductor 进行 WES 管道并使用 tk choose dir 选择用户存储输入文件的目录并将其存储以供进一步使用这里是命令行 library tcltk dataDir lt dirname tk choos
tidyverse 干扰 ggplot2 吗？无法访问map_data

在控制台中运行这些命令输出为 gt cty0 ggplot2 map data county gt library tidyverse Loading tidyverse ggplot2 Loading tidyverse tibble
如何上下移动字符串并从中删除相似的字符串？

我问了一个可能不太清楚的问题所以我尝试用一种可以理解的方式来解释它这是我的数据我的数据看起来像这样看起来像这样 V1 V2 V3 1 Q9UNZ5 Q9Y2W1 2 Q9ULV4 Q6QEF8 3 Q9UNZ5 4 Q9H6F5
关于子组的新列和另一列中的百分比范围

我有一个如下所示的示例 df df test lt data frame Group Name c Group1 Group2 Group1 Group2 Group2 Group2 Group1 Sub group name c A A
距数据帧中最近的非 NA 值的距离

我有以下数据帧 df 我想添加一列其中包含与每行最接近的非 NA 值的距离 df lt data frame x 1 20 df c 1 3 4 5 11 14 15 16 x lt NA 换句话说我正在寻找以下值 df distanc
R中无法连接odbc数据库

我一直在尝试使用以下命令将我公司的 DMS 连接到 RodbcConnect命令但收到以下消息 myConn lt odbcConnect NZSQL uid cejacobson pwd password Warning message
如何使用 ggplot2 对曲线下的区域进行着色

我一直在尝试使用 ggplot2 生成类似于此 R 图形的绘图 xv lt seq 0 4 0 01 yv lt dnorm xv 2 0 5 plot xv yv type l polygon c xv xv lt 1 5 1 5 c y
在 R 中使用深度网络和 MNIST 数据读取手写数字第 3 部分

我尝试编写一个基于深度网络的程序来读取手写数字我在 Youtube 上找到了一个代码 https www youtube com watch v 5bso 5X7Zu4 https www youtube com watch v 5bso
ggsubplot 是否适用于 R 3.2.1+？

CRAN 提供的 ggsubplot 版本与 R 的最新版本例如 3 1 1 不兼容运行 ggsubplot 示例会返回以下错误 Error in layout base data vars drop drop At least one
data.table 的包装函数

我有一个已经使用 data frame 上下文编写的项目为了缩短计算时间我尝试利用 data table 的速度我的方法是构造包装函数读取帧将它们转换为表进行计算然后转换回帧这是一个简单的例子 FastAgg lt func
如何在R中将英尺转换为厘米？

我得到了一个高度的字符向量如下所示 859 5 10 5 8 5 11 6 0 5 10 6 2 5 11 6 2 6 2 5 7 5 9 5 7 6 1 6 0 5 11 6 0 6 5 6 1 6 1 5 10 5 11 5 11 6
R：（中缀）运算符的两个定义之间的冲突：如何指定包？

在 R 中每当两个包定义相同的函数时很容易指定要使用哪个包pkg foo 但是当冲突的功能是一个时你该怎么办 infix运算符即使用定义举个例子两者ggplot2 and crayon define 有没有一种方法可以让我默认
如何通过组度量的平均值在 df 内排列 dplyr:: 组？

借鉴吴卡拉的设计https stackoverflow com a 26555424 9350837 https stackoverflow com a 26555424 9350837答案我希望根据各个组汇总测量的平均值对分组 df 进
在 Windows / Linux 中创建 Mac 包

我自己努力制作一个 r 包我按照 stackoverflow 中上一个问题的说明进行操作如何为外行开发软件包 http cran r project org bin windows Rtools 以下是我根据上一个问题采取的步骤在新的
在ggplot2中，箱线图线的末尾代表什么？

我找不到箱线图线条端点代表什么的描述 For example here are point values above and below where the lines end 我意识到盒子的顶部和底部是第 25 个和第 75 个百分位数
如何不显示 ggplot 轴上的所有标签？

I m trying to using ggplot2 to plot this But as you can see on the x axis you can t read anything 那么如何在 x 轴上显示每 10 年的值呢
使用 R 将日期格式的字符串列表/向量转换为 posix 日期类

我有一个日期格式的字符串列表我想将其转换为可以使用 R 操作的 posix 日期列表我该怎么做这就是我所拥有的但我最终得到了一个列表 a lt c 2009 01 01 00 00 00 2009 01 01 00 00 00 z
ggplot2 中的中心图标题

这个简单的代码以及今天早上我的所有脚本已经开始在 ggplot2 中给我一个偏离中心的标题 Ubuntu version 16 04 R studio version Version 0 99 896 R version 3 3 2 G
ggplot2 + 使用比例 X 的日期结构

我真的需要帮助因为我已经迷路了我正在尝试创建一个折线图显示几个团队一年来的表现我将一年分为几个季度 2012 年 1 月 1 日 2012 年 4 月 1 日 2012 年 8 月 1 日 12 1 12 并将 csv 数据帧加载到
ggplot：类似于scale_color_steps()的有序因子的色标

With scale color steps 我们可以通过设置low和high争论一个例子 df lt data frame x rnorm 99 y rnorm 99 col rnorm 99 ggplot df aes x y col

随机推荐

将图像插入 MySQL 数据库或从 MySQL 数据库查看图像

我在数据库中插入图像时遇到问题该表具有以下结构 id gt INT 3 gt 自动增量名称 gt VARCHAR 30 扩展名 gt VARCHAR 10 可能太短 img gt 中型BLOB 插入图像的PHP代码是 if FILES
通过滚动移动 DIV

我正在创建一个 jQuery 滚动条它滚动中的内容这就像jQuery 滚动窗格 http jscrollpane kelvinluck com 我已经到了需要移动滚动按钮的地步我的问题是在没有任何 UI 插件的情况下最好的方法是
如果我加载一个包含 (ns my-namespace) 的文件，为什么它不切换我当前的命名空间？

我有一个这样的文件 ns boston core If I load boston core 然而从 REPL 来看我的 ns 没有改变为boston但仍然存在user 为什么是这样这是因为 load 只是加载指定的文件到 bost
从 glm 中提取 p 值

我正在运行许多回归并且只对一个特定变量的系数和 p 值的影响感兴趣因此在我的脚本中我希望能够从 glm 摘要中提取 p 值获取系数本身很容易我知道查看 p 值的唯一方法是使用 summary myReg 还有其他办法吗 e g
如何检测会话何时结束

有没有办法检测有人离开您的网站到目前为止我知道如何使用ignore user abort 但据我所知这就是了我需要知道这一点的原因是因为我需要一个脚本来在有人离开网站时执行在数据库中为每个用户记录一个时间戳并在每次页面加载时或通
如何暂时禁用“返回值可能未定义”警告？

我想在代码中禁用特定警告 W1035 因为我认为编译器对此警告是错误的 function TfrmNagScreen Run TOption begin if ShowModal mrOk then Result TOption rdgAc
Bootstrap 3 导航栏链接不起作用

我有一个带有链接的导航栏品牌链接有效但没有任何内容ul做我读过关于e preventDefault 当它与 ul nav gt li click function e 我也读过它与z index 我没有发现任何这样的情况除非我找不
Heiken Ashi 使用 pandas python

I was defining a function Heiken Ashi which is one of the popular chart type in Technical Analysis I was writing a funct
Android DatePicker 显示月份名称

我正在尝试使用日期选择器并且在选择时我想以以下格式显示日期月份名称日期年份 final Calendar c Calendar getInstance mYear c get Calendar YEAR 13 mMonth c ge
使用 constexpr auto/char-array 变量观察到的不同行为

跟进这个问题拥有 constexpr 静态字符串会导致链接器错误 https stackoverflow com questions 34792403 having a constexpr static string gives a lin
为什么这个程序用“YES”和“true”产生不同的结果？

这是完整的程序你能找出它的控制台输出吗 import
使用 jQuery 求数组中值的总和[重复]

这个问题在这里已经有答案了我有一个包含一些值的数组我想得到它们的总和这是示例 var somearray 20 40 80 400 我想使用 jQuery 对这些值求和在此示例中结果将为 540 也可以处理浮点数旧 JavaSc
对于自定义类，Python 相当于 C++ begin() 和 end()

假设您有一个字典其键是整数这些值也是字典其键是字符串其值是 numpy 数组就像是 custom 1 a np zeros 10 b np zeros 100 2 c np zeros 20 d np zeros 200 我在代码
如何使 python 数据类可哈希？

我有一个数据类我想使用以下方法对其实例进行哈希和排序id会员作为钥匙 from dataclasses import dataclass field dataclass eq True order True class Category
是否可以使用reduce对列表进行排序？

我得到这个作为练习我当然可以使用以下方法对列表进行排序sorted 或来自Python标准库的其他方式但在这种情况下我不能我think我只应该使用reduce from functools import reduce arr 17 2
在.net core 1.0 WEB API项目中设置应用程序图标

最近我在Visual Studio中开发了一个基于 net core 1 0和 net Framework 4 5 1的ASP NET Web应用程序该应用程序生成一个 exe 文件我的主要问题是我无法找到在项目中更改已编译可执行文件的
通过其他列的回归来填充缺失值（nan）

我有一个包含大量缺失值 NAN 的数据集我想在 python 中使用线性或多线性回归并填充所有缺失值您可以在这里找到数据集 Dataset https gofile io c yaGMIr 我使用 f regression X trai
JQPlot - 饼图 - 获取点击的切片颜色

我的要求是当用户单击饼图时获取饼图的选定颜色如果我能在以下函数中做到这一点那就太好了 chart1 bind jqplotDataClick function ev seriesIndex pointIndex data alert ev
无法在属性初始值设定项中使用实例成员

我写了一个自定义UIView我发现了一个奇怪的问题我认为这涉及到一个非常基本的概念但我就是不明白叹息 class ArrowView UIView override func draw rect CGRect let arrowPat
基于 R 中字符串比较的相似度分数（编辑距离）

我正在尝试根据两个字符串之间的比较来分配相似度分数 R 中是否有相同的函数我知道 SAS 中有一个名为 SPEDIS 的函数如果R中有这样的函数请告诉我功能adist http stat ethz ch R manual R pat

基于 R 中字符串比较的相似度分数（编辑距离）

基于 R 中字符串比较的相似度分数（编辑距离） 的相关文章

随机推荐

热门标签

基于 R 中字符串比较的相似度分数（编辑距离）的相关文章