计算两个整数矩阵/数据帧的所有行之间的成对汉明距离

2023-12-14

我有两个数据框，df1与参考数据和df2与新数据。对于中的每一行df2，我需要找到最佳（和第二最佳）匹配行df1就汉明距离而言。

I used e1071计算汉明距离的包。两个向量之间的汉明距离x and y可以计算如下：

x <- c(356739, 324074, 904133, 1025460, 433677, 110525, 576942, 526518, 299386,
       92497, 977385, 27563, 429551, 307757, 267970, 181157, 3796, 679012, 711274,
       24197, 610187, 402471, 157122, 866381, 582868, 878)

y <- c(356739, 324042, 904133, 959893, 433677, 110269, 576942, 2230, 267130,
       92496, 960747, 28587, 429551, 438825, 267970, 181157, 36564, 677220,
       711274, 24485, 610187, 404519, 157122, 866413, 718036, 876)

xm <- sapply(x, intToBits)
ym <- sapply(y, intToBits)

distance <- sum(sapply(1:ncol(xm), function(i) hamming.distance(xm[,i], ym[,i])))

结果距离是 25。但是我需要对所有行执行此操作df1 and df2。一个简单的方法需要一个双循环嵌套，看起来非常慢。

有什么想法可以更有效地做到这一点吗？最后我需要附加到df2:

具有行 id 的列df1给出最短距离；
距离最近的一列；
具有行 id 的列df1这给出了第二短的距离；
距离第二短的列。

Thanks.

快速计算两个等长整数向量之间的汉明距离

正如我在评论中所说，我们可以这样做：

hmd0 <- function(x,y) sum(as.logical(xor(intToBits(x),intToBits(y))))

计算之间的汉明距离两个长度相等的整数向量 x and y。这仅使用 R 基，但比e1071::hamming.distance, 因为它是矢量化的！

举个例子x and y在你的帖子中，这给出了 25。（我的另一个答案将展示如果我们想要成对汉明距离，我们应该做什么。)

矩阵和向量之间的快速汉明距离

如果我们想计算单个之间的汉明距离y和多个xs，即向量和矩阵之间的汉明距离，我们可以使用以下函数。

hmd <- function(x,y) {
  rawx <- intToBits(x)
  rawy <- intToBits(y)
  nx <- length(rawx)
  ny <- length(rawy)
  if (nx == ny) {
    ## quick return
    return (sum(as.logical(xor(rawx,rawy))))
    } else if (nx < ny) {
    ## pivoting
    tmp <- rawx; rawx <- rawy; rawy <- tmp
    tmp <- nx; nx <- ny; ny <- tmp
    }
  if (nx %% ny) stop("unconformable length!") else {
    nc <- nx / ny  ## number of cycles
    return(unname(tapply(as.logical(xor(rawx,rawy)), rep(1:nc, each=ny), sum)))
    }
  }

注意：

hmd执行计算逐列。它的设计目的是CPU缓存友好。这样，如果我们想做一些按行计算，我们应该先转置矩阵；
这里没有明显的循环；相反，我们使用tapply().

两个矩阵/数据帧之间的快速汉明距离计算

这就是你想要的。以下功能foo需要两个数据框或矩阵df1 and df2，计算之间的距离df1和每一行df2。争论p是一个整数，显示您想要保留多少个结果。p = 3将保持最小的 3 个距离及其行 iddf1.

foo <- function(df1, df2, p) {
  ## check p
  if (p > nrow(df2)) p <- nrow(df2)
  ## transpose for CPU cache friendly code
  xt <- t(as.matrix(df1))
  yt <- t(as.matrix(df2))
  ## after transpose, we compute hamming distance column by column
  ## a for loop is decent; no performance gain from apply family
  n <- ncol(yt)
  id <- integer(n * p)
  d <- numeric(n * p)
  k <- 1:p
  for (i in 1:n) {
    distance <- hmd(xt, yt[,i])
    minp <- order(distance)[1:p]
    id[k] <- minp
    d[k] <- distance[minp]
    k <- k + p
    }
  ## recode "id" and "d" into data frame and return
  id <- as.data.frame(matrix(id, ncol = p, byrow = TRUE))
  colnames(id) <- paste0("min.", 1:p)
  d <- as.data.frame(matrix(d, ncol = p, byrow = TRUE))
  colnames(d) <- paste0("mindist.", 1:p)
  list(id = id, d = d)
  }

注意：

换位是在开始时根据之前的原因进行的；
a for这里使用了循环。但这实际上是有效的，因为每次迭代都会进行大量计算。它也比使用更优雅*applyfamily，因为我们要求多个输出（行 idid和距离d).

实验

这部分使用小数据集来测试/演示我们的功能。

一些玩具数据：

set.seed(0)
df1 <- as.data.frame(matrix(sample(1:10), ncol = 2))  ## 5 rows 2 cols
df2 <- as.data.frame(matrix(sample(1:6), ncol = 2))  ## 3 rows 2 cols

Test hmd首先（需要转置）：

hmd(t(as.matrix(df1)), df2[1, ])  ## df1 & first row of df2
# [1] 2 4 6 2 4

Test foo:

foo(df1, df2, p = 2)

# $id
#   min1 min2
# 1    1    4
# 2    2    3
# 3    5    2

# $d
#   mindist.1 mindist.2
# 1         2         2
# 2         1         3
# 3         1         3

如果您想附加一些列df2，你知道该怎么做，对吗？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

apply

sapply

tapply

hammingdistance

计算两个整数矩阵/数据帧的所有行之间的成对汉明距离的相关文章

可以明确声明包依赖项的版本吗？

我倾向于对我编写的代码进行明确而不是隐含的描述因此在成功创建自己的包之后我立即想到的下一件事是如何最好地确保代码的健壮性和可靠性其中一部分与我的包所依赖的包有关实际问题在这方面是否可以明确声明需要期望哪个版本的包依赖项我正
如何生成向量的所有组合[重复]

这个问题在这里已经有答案了假设我有 3 个绿球 2 个橙球和 8 个黄球我想订购它们鉴于所有相同颜色的球都是相同的如何生成所有可能的序列在 R 中使用gregmisc 我可以 balls lt c orange orange g
将summary()写入as.data.frame以在ggplot / R中使用

请查找 af 数据样本t below 我正在使用以下方法进行竞争风险分析etmCIF来自etm package 产生以下结果这很好但需要更好的图形曾经有一个ggtrans etm函数将数据导入ggplot 然而这个功能显然被删除了
R 中的 NA 替换函数

我正在尝试替换矩阵中的 NA mat 零我在用着mat is na mat lt 0 当我有 18946 个变量的 94531 个观察值或更小的矩阵时效果很好但我在 22752 个变量的 112039 个观察值的矩阵上尝试它 R 显示
分离并重新附加“tools:rstudio”

又名玩火以下不起作用 rstd obj lt as environment tools rstudio detach tools rstudio attach rstd obj name tools rstudio 好吧它似乎有效但随
使用底格里斯河从纬度/经度获取人口普查区

我有相对较多的坐标我想获取其人口普查区除了 FIPS 代码我知道我可以使用以下命令查找各个纬度经度对call geolocator latlon 已完成here https stackoverflow com questions 5
将值替换为其各自列的名称

我有一个数据框 Code 401k CVS 101A true 231N true FD54 true 99JB 85F4 true 我试图用相应的列名称例如 401k 替换 true 字符值这是我想要的输出 Code 401k CVS
使用 R 的 flextable 包时，有没有办法将传递给 add_header_lines() 的字符串部分加粗

我正在使用我喜欢的 flextable 包为 Word 文档创建几个表格但是我在将表格标题中的部分文本加粗时遇到了一些麻烦例如我希望标题为 Table 1 我的表格标题的其余部分而不是表 1 我的表格标题的其余部分 I 找到这个
dplyr，do()，从模型中提取参数而不丢失分组变量

R 帮助中关于 do 的示例略有不同 by cyl lt group by mtcars cyl models lt by cyl gt do mod lm mpg disp data coefficients lt models gt d
从 R 环境中删除对象

我正在阅读 Hadley 的 Advanced R 在第 8 章中他说我们可以使用以下方法从环境中删除对象 rm 但是移除该物体后我仍然可以看到该物体这是我的代码 e lt new env e a lt 1 e b lt 2 e a
R 编程：如何计算数据框中两个单元格之间的差异并将它们保存在新列中

尝试学习 R 并陷入自相关示例中我想将 x 的差异与 y 的差异进行回归我在数据框中有 x 和 y 并且希望将 x2 x1 的差值保存在新列例如 dx 中我不知道该怎么做我拥有的 data1 x y 5 3 8 9 3 1 1 5
将 sf voronoi 多边形裁剪到边界框时出错

我正在尝试将 voronoi polygons 使用 sf package 创建剪辑到边界框但它引发了我无法定义的错误我对 R 的空间世界不太有经验感谢所有帮助样本数据 stations lt structure list ST
将函数应用于 3d 数组的每一层，返回一个数组

假设您有一个包含行列和层的 3 维数组 A lt array 1 27 c 3 3 3 想象你有一个函数它接受一个矩阵作为输入并返回一个矩阵作为输出就像t 如何将该函数应用于数组的每一层返回与第一层大小相同的另一个数组我觉得我应该
如何将此“for”循环转换为向量解

这个问题与将嵌入其他文本的长州名称转换为两个字母的州缩写 https stackoverflow com questions 25582518 convert long state names embedded with other te
带 R 的多彩标题

我想添加颜色某些词在我的图表标题中我已经能够在这里找到一些先例 http blog revolutionanalytics com 2009 01 multicolor text in r html 具体来说我希望用撇号括起来的文本在
ggplot散点图中的图例问题

我想使用 ggplot 创建显示方法比较数据的散点图绘图应包含原始数据理想线和带误差的拟合线图例应显示理想线和拟合线的线型线宽线颜色我可以获得大部分我想要的东西但是图例存在以下问题图例显示每种线型有 2 条线为什么如何解
在 R 中使用 Huggingface Transformer 模型

我正在尝试在 R 中使用不同的 Huggingface 模型这是通过 reticulate 导入 Transformer 包来实现的谢谢 https rpubs com eR ic transfoRmers https rpubs co
使用 dplyr::filter 的整洁方式是什么？

使用下面的函数调用foo c b 输出以内联方式显示正确的写作方式是什么df gt filter x gt x 我已经包含了一个使用的示例mutate以整洁的风格与之对比filter foo lt function variables x
如何匹配 R 中的所有匹配项？

我有 1000 个名字的列表说A 我还有另外 5 个名字的清单说B 我想找出这5个名字出现在1000个号码列表中的第几行例如 Amy 在 A 中可以出现 25 次 B 里有艾米我想知道 Amy 出现在 A 中的哪些行我以前使用过
ggplot2、R 中的单条形条形图

我有以下数据和代码 gt ddf var1 var2 1 aa 73 2 bb 18 3 cc 9 gt gt dput ddf structure list var1 c aa bb cc var2 c 73L 18L 9L Names

随机推荐

是什么导致了这个属性错误？

我一直在寻找解决方案但还没有找到所以这是我的代码 class snakeGame def init self pygame init self isRunning False self surface None self drawLis
RNetLogo 无法在 Mac Yosemite 上运行

我刚刚尝试过此操作但收到此错误消息关于如何修复它有什么想法吗我使用的是R版本3 1 1 RNetLogo 1 0 1 平台是x86 64 apple darwin13 1 0 64位 Java 7 update 60 Sys sete
如何使用 CasperJS 通过自定义 POST 请求下载文件

我正在编写一个爬虫需要使用 POST 下载表单请求后生成的文件我已成功将 this download url POST Params 用于常规表单其中一个网站有许多字段使用相同的名称从而使我无法使用常规下载方法在尝试了很多事情之后
是否有理由担心表中的列顺序？

我知道你可以用 FIRST 和 AFTER 来改变 MySQL 中的列顺序但是你为什么要费心呢由于好的查询在插入数据时会显式命名列因此真的有理由关心列在表中的顺序吗列顺序对我调优的一些数据库包括 Sql Server Oracle
如何将Recyclerview项目保持在同一位置？

我有以下问题我从 Fragment 类中填充 Recyclerview 到目前为止一切顺利然而当我测试我的应用程序并上下滚动填充的回收器列表时每个项目的内容都会发生变化也就是它们会被回收如何保存每个项目的位置并在滚动后将其内容
“未找到请求的实体。” - Apps 脚本执行 API 错误

我们有一个安装在五个 G Suite 帐户中的 Apps 脚本我正在从 Google App Engine 中部署的 Java 代码调用应用程序脚本我已将五个刷新令牌存储在属性文件中并在调用 Apps 脚本之前以循环方式将它们设置在
Flask-sqlalchemy：连接两个数据库中的表（不同的绑定键）时遇到问题。出现错误 1146（见下文）

我正在使用 python 和 sqlalchemy 构建 Flask Restful API 并且尝试连接来自不同数据库的两个表看来我一次只能搜索一个数据库中的表我错过了什么吗 from flask sqlalchemy import
通配符匹配严格，但找不到元素“resources”的声明

我知道这是重复的你们会因此责备我但在阅读所有帖子后我没有得到正确的解决方案我正在尝试在 Spring Source Tool Suite 中构建 Spring 模板应用程序我收到以下错误 org springframework be
QT + OpenSSL + 安卓

我想设置 OpenSSL 库对于我的 Qt 项目在 Linux 下它可以与内置的 OpenSSL 一起正常工作我将其添加到我的 pro 文件中 LIBS lcrypto PKGCONFIG openssl 但是如果我在Android
CakePHP hasAndBelongsToMany (HABTM) 删除加入记录

我在用户和位置之间有 HABTM 关系两种型号都有合适的 hasAndBelongsToMany变量集当我管理用户位置时我想删除用户和位置之间的关联但不删除位置显然这个位置可能属于其他用户我希望以下代码仅删除提供 HABTM 关
如何处理android中的复选框ischecked和unchecked事件

我是 android 新手我制作了一个简单的数学应用程序我使用复选框来选择正确的选项但问题是答案选项不仅是一个而且是两个三个意味着多重选择所以我使用复选框 chkOption setOnCheckedChangeListener
Swift - 检查 url asset 是否有声音

我的屏幕破裂了而且我的手机没有声音功能我用相机录制了视频当我选择视频网址时didFinishPickingMediaWithInfo我尝试检查视频是否有声音但是player currentItem asset tracks说视频确实
Java Mail：在没有 SSL 的情况下在端口 25 上发送电子邮件时出现 SSLHandshakeException

尽管我尝试在不使用 SSL 的情况下在端口 25 上发送电子邮件但我收到了 SSLHandshakeException 下面您可以看到 javax mail Session 和 SSLHandshakeException 打印的调试消息
浮动 div，100% 高度

t webkit tap highlight color rgba 0 0 0 0 margin 0 padding 0 list style none 页脚渐变 position relative width 100 overflow h
我可以创建一个接受 C# 中两种不同类型的泛型方法吗

我可以创建一个接受两种类型的通用方法吗这attributeType and ts attributeType尽管它们确实具有相同的字段但不共享任何公共父类这可能吗或者有什么方法可以实现这一点 private static void
淡出内容 A 的 div，淡入内容 B 的同一 div

我有以下内容 function ajaxloader click function event var target this attr href window location hash target conteudoInscricao
CSS 定位 70-30，带内联块

我正在定位main bar and side bar with 70 30比例如下 JSFIDDLE main bar side bar position relative margin 0 padding 0 outline 0 disp
如何根据邮政编码在 Woocommerce 中隐藏付款方式

在此 woocommerce 设置中我有 2 种付款方式 Paypal and 货到付款现在怎么可以货到付款仅对某些邮政编码隐藏禁用这是我在 Gist 上找到的代码 Disable gateway based on country
OpenSSL 是否允许每个进程使用多个 SSL_CTX，一个 SSL_CTX 用于服务器会话，另一个 SSL_CTX 用于客户端会话？

我有一个 Linux 进程需要充当 SSL 服务器接受和服务来自其他客户端的连接但也需要在同一进程中启动与其他 SSL 服务器的客户端会话我打算使用两个 SSL CTX new 函数调用创建两个单独的 SSL CTX 句柄一个使用
计算两个整数矩阵/数据帧的所有行之间的成对汉明距离

我有两个数据框 df1与参考数据和df2与新数据对于中的每一行df2 我需要找到最佳和第二最佳匹配行df1就汉明距离而言 I used e1071计算汉明距离的包两个向量之间的汉明距离x and y可以计算如下 x lt c 356

计算两个整数矩阵/数据帧的所有行之间的成对汉明距离

计算两个整数矩阵/数据帧的所有行之间的成对汉明距离 的相关文章

随机推荐

热门标签

计算两个整数矩阵/数据帧的所有行之间的成对汉明距离的相关文章