R模糊字符串匹配根据匹配的字符串返回特定列

2024-05-07

我有两个大型数据集，一个大约有 50 万条记录，另一个大约有 7 万条记录。这些数据集有地址。我想匹配较小数据集中的任何地址是否存在于大数据集中。正如您所想象的那样，地址可以用不同的方式和不同的情况/拼写等来书写。此外，如果只写到建筑物级别，则该地址可以重复。所以不同的公寓有相同的地址。我做了一些研究并找出了可以使用的包 stringdist 。

我做了一些工作并设法根据距离获得最接近的匹配。但是，我无法返回地址匹配的相应列。

下面是一个示例虚拟数据以及我为解释这种情况而创建的代码

library(stringdist)
Address1 <- c("786, GALI NO 5, XYZ","rambo, 45, strret 4, atlast, pqr","23/4, 23RD FLOOR, STREET 2, ABC-E, PQR","45-B, GALI NO5, XYZ","HECTIC, 99 STREET, PQR","786, GALI NO 5, XYZ","rambo, 45, strret 4, atlast, pqr")
Year1 <- c(2001:2007)

Address2 <- c("abc, pqr, xyz","786, GALI NO 4 XYZ","45B, GALI NO 5, XYZ","del, 546, strret2, towards east, pqr","23/4, STREET 2, PQR","abc, pqr, xyz","786, GALI NO 4 XYZ","45B, GALI NO 5, XYZ","del, 546, strret2, towards east, pqr","23/4, STREET 2, PQR")
Year2 <- c(2001:2010)

df1 <- data.table(Address1,Year1)
df2 <- data.table(Address2,Year2)
df2[,unique_id := sprintf("%06d", 1:nrow(df2))]

fn_match = function(str, strVec, n){
  strVec[amatch(str, strVec, method = "dl", maxDist=n,useBytes = T)]
}

df1[!is.na(Address1)
    , address_match := 
      fn_match(Address1, df2$Address2,3)
    ]

这将返回基于距离 3 的闭合字符串匹配，但是我还想在 df1 中包含来自 df2 的“Year”和“unique_id”列。这将帮助我了解该字符串与 df2 中的哪一行数据相匹配。所以最后我想知道df1 中的每一行基于指定距离的 df2 最接近的匹配是什么，并且对于匹配行有特定的"Year" and 来自 df2 的“unique_id”.

我想这与合并（左连接）有关，但我不确定如何合并保留重复项并确保与 df1 （小数据集）中的行数相同。

任何类型的解决方案都会有所帮助！

你已经成功了 90%...

你说你想要

知道字符串与 df2 中的哪一行数据相匹配

您只需要了解已有的代码即可。看?amatch:

amatch返回最接近匹配的位置x in table。当存在多个具有相同最小距离度量的匹配时，返回第一个。

换句话说，amatch为您提供该行的索引df2（这是你的table）这是每个地址最接近的匹配df1（这是你的x）。您通过返回新地址来过早地包装该索引。

相反，检索索引本身以进行查找or左连接的 unique_id （如果您确信它确实是唯一的 id）。

两种方法的说明：

library(data.table) # you forgot this in your example
library(stringdist)
df1 <- data.table(Address1 = c("786, GALI NO 5, XYZ","rambo, 45, strret 4, atlast, pqr","23/4, 23RD FLOOR, STREET 2, ABC-E, PQR","45-B, GALI NO5, XYZ","HECTIC, 99 STREET, PQR","786, GALI NO 5, XYZ","rambo, 45, strret 4, atlast, pqr"),
                  Year1 = 2001:2007) # already a vector, no need to combine
df2 <- data.table(Address2=c("abc, pqr, xyz","786, GALI NO 4 XYZ","45B, GALI NO 5, XYZ","del, 546, strret2, towards east, pqr","23/4, STREET 2, PQR","abc, pqr, xyz","786, GALI NO 4 XYZ","45B, GALI NO 5, XYZ","del, 546, strret2, towards east, pqr","23/4, STREET 2, PQR"),
                  Year2=2001:2010)
df2[,unique_id := sprintf("%06d", .I)] # use .I, it's neater

# Return position from strVec of closest match to str
match_pos = function(str, strVec, n){
  amatch(str, strVec, method = "dl", maxDist=n,useBytes = T) # are you sure you want useBytes = TRUE?
}

# Option 1: use unique_id as a key for left join
df1[!is.na(Address1) | nchar(Address1>0), # I would exclude only on NA_character_ but also empty string, perhaps string of length < 3
    unique_id := df2$unique_id[match_pos(Address1, df2$Address2,3)] ]
merge(df1, df2, by='unique_id', all.x=TRUE) # see ?merge for more options

# Option 2: use the row index
df1[!is.na(Address1) | nchar(Address1>0),
    df2_pos := match_pos(Address1, df2$Address2,3) ] 
df1[!is.na(df2_pos), (c('Address2','Year2','UniqueID')):=df2[df2_pos,.(Address2,Year2,unique_id)] ][]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R模糊字符串匹配根据匹配的字符串返回特定列的相关文章

如果“testthat”测试在“R”中失败，则打印自定义诊断信息

I use a testthat单元测试来检查是否data frame函数返回的结果与我期望它返回的结果相同如果测试失败 testthat打印一些诊断信息例如 MyFunction df orig is not identical to
如何调整ggplot直方图的时间刻度轴

我正在使用一个数据框其中一列包含POSIXct日期时间值我正在尝试使用绘制这些时间戳的直方图ggplot2但我有两个问题我不知道如何设置 binwidthgeom histogram 我想将每个垃圾箱设置为一天或一周我尝试提供 di
使用底格里斯河从纬度/经度获取人口普查区

我有相对较多的坐标我想获取其人口普查区除了 FIPS 代码我知道我可以使用以下命令查找各个纬度经度对call geolocator latlon 已完成here https stackoverflow com questions 5
如何在 dataTable.js 中转置行和列

我想在行而不是列中显示我的数据转置你可以在这里看到我的例子 var dataSet Tiger Nixon System Architect Edinburgh 5421 2011 04 25 320 800 Garrett Winte
在函数内部调用 clusterApply 时，性能会下降

我遇到了一个奇怪的问题clusterApply 我已经能够尽可能地隔离它如下所示首先我从全局环境运行以下代码 require parallel cl lt makeCluster rep localhost 20 SOCK xl lt
dplyr，do()，从模型中提取参数而不丢失分组变量

R 帮助中关于 do 的示例略有不同 by cyl lt group by mtcars cyl models lt by cyl gt do mod lm mpg disp data coefficients lt models gt d
查找数据帧列表中同一列中的所有重复值并将其转换为 NULL

我有一个清单BELGIAN COAST list包含数百个数据帧 df1 df2 15 列 X 1000 行每个数据帧的最后一列称为Chemicals并包含一些字符例如Sulfate or Ammonia 但是这一列有很多行Chemic
错误：“rjags”的包或命名空间加载失败

在终端的 conda 环境之一中我能够成功安装包 rjags 但是当我在该环境中运行 R 并运行库 rjags 时出现以下错误加载所需的包 coda 错误 rjags 的包或命名空间加载失败 rjags 的 loadNamespac
从 R 环境中删除对象

我正在阅读 Hadley 的 Advanced R 在第 8 章中他说我们可以使用以下方法从环境中删除对象 rm 但是移除该物体后我仍然可以看到该物体这是我的代码 e lt new env e a lt 1 e b lt 2 e a
当每个记录都是一个段落并且某些记录有 4 个字段而其他记录有 6 个字段时，如何将文本文件读入 R

如何读取文本文件其中每条记录都是一个段落每个换行符表示单独的字段复杂的是有些记录有 4 行有些记录有 6 行当字段数量的差异为 1 时 DWin 解决了我的问题但当字段数量差异为 2 时一切都崩溃了你可以有一个在这里看看他
R 编程：如何计算数据框中两个单元格之间的差异并将它们保存在新列中

尝试学习 R 并陷入自相关示例中我想将 x 的差异与 y 的差异进行回归我在数据框中有 x 和 y 并且希望将 x2 x1 的差值保存在新列例如 dx 中我不知道该怎么做我拥有的 data1 x y 5 3 8 9 3 1 1 5
如何将 CSV 文件读入 .NET 数据表

如何将 CSV 文件加载到System Data DataTable 根据CSV文件创建数据表常规 ADO net 功能是否允许这样做我一直在使用OleDb提供者但是如果您正在读取具有数值的行但希望将它们视为文本则会出现问题但
R 更改小数位且不四舍五入

gt signif 1 89 digits 2 1 1 9 我想要1 8 这有点笨拙但它会起作用并保持所有数字 x lt 1 829380 trunc dec lt function x n floor x 10 n 10 n Resul
将数据从 R 导出到 Excel

我试图将从 R 获得的一些结果导出到 Excel 中但未成功我尝试过以下代码 write table ALBERTA1 D ALBERTA1 txt sep t write csv ALBERTA1 ALBERTA1 csv your
C# 问题：加载 .MDB 文件、对其进行更改并将更改保存回原始文件的最简单方法是什么？

我正在进行的项目即将完成我正在加载一个 MDB 文件在 DataGrid 上显示内容并尝试在 DataGrid 上获取这些更改并将它们保存回 MDB 文件中我还将创建一个函数允许我从一个 MDB 文件中获取表并将其保存到另一个 M
有没有一种简单的方法来判断存储在一个列表中的许多数据帧是否包含相同的列？

我有一个包含许多数据框的列表 df1 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df2 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df3 lt data frame
如何计算嵌套函数中的粘合表达式？

我正在尝试嵌套一个函数该函数将两个字符串粘合在一起该函数使用组合字符串来命名数据帧的列然而问题似乎是粘合表达式没有足够早地评估为字符串我可以并且应该强制在将表达式作为参数传递给另一个函数之前对其进行求值吗 library ti
在 R 中使用 Huggingface Transformer 模型

我正在尝试在 R 中使用不同的 Huggingface 模型这是通过 reticulate 导入 Transformer 包来实现的谢谢 https rpubs com eR ic transfoRmers https rpubs co
具有 dplyr、tidyverse 和 broom 的相关矩阵 - P 值矩阵

全部我想使用以下方法从相关矩阵中获取 p 值dplyr 和或扫帚包并同时测试多个变量我知道其他方法但 dplyr 对我来说似乎更简单更直观此外 dplyr 需要关联每个变量以获得特定的 p 值这使得该过程更容易更快我检查
替换字符串/文本中“从第 n 次到最后一次”出现的单词

这个问题以前曾被问过但尚未得到令提问者满意的答案 https stackoverflow com questions 36368712 how to use stringrs replace all function to replace

随机推荐

ItemTemplate 与 ControlTemplate

我对WPF的学习感到困惑我看到 ControlTemplate 用于确定列表框中每个项目的外观这不是 ItemTemplate 在列表框中的用途吗有什么不同 ControlTemplate 允许您更改现有控件的外观和感觉例如使普通
Yii2：用户身份验证到底是如何工作的？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不明白Authentication in Yii2 In Yii 1有一个身份类别我们需要与authentication 方法和调
如何使用 python 将 .docx 文件转换为 html？

import mammoth f open D filename docx rb document mammoth convert to html f 当我运行此代码时我无法获取 html 文件请帮助我获取它当我转换为 html 文件
django自定义模板标签中的访问请求

我在 myapp extras py 中的代码 from django import template register template Library register inclusion tag new userinfo html d
如何创建链接以打开 Web 部件中的工具部件

我有一个自定义 Web 部件当它首次呈现时我想提供打开修改共享 Web 部件属性的链接就像我们打开 OOB Web 部件如内容编辑器或 XML Web 部件时通常得到的那样任何人对此都有想法我正在使用它但是当我单击它时它显
错误：外线构造函数不能有模板参数 C++

我有一些代码看起来像这样Array hpp file template
CakePHP 验证错误消息

我正在尝试修改 CakePHP 显示错误消息的方式下面是用于显示错误的通用模板 div class error message Please enter at least 3 characters div 我想像下面这样设置错误的样式
动态数据表在asp.net中采用相反的顺序

在我的网络应用程序中我创建了 DataTable dt new DataTable dt Columns Add Month 并用日期填充列名月 Month Column name oct 2014 July 2016 Aug 2016
PyDev 无法再调试

我正在使用 eclipse 4 2 1 和 pydev 2 7 1 以前是 2 6 0 一切都工作正常直到调试器突然停止工作它打印 pydev debugger 开始然后根本不运行程序而是挂起根据我在其他问题报告中找到的一些信息
如何避免将相同的片段添加到堆栈中

我需要一些帮助他们以这种方式将片段添加到活动中问题是每次调用 openFragment 时都会创建片段并添加这是显而易见的问题我做了什么修改这样它只能添加一次片段在下次使用相同片段标签的调用时它将什么也不做案例第一次按下
Delphi - 将字符串从 UTF-8 转换回来

我在将 UTF 8 编码字符串转换回 delphi 可用的字符串时遇到问题该应用程序是用 XE8 编写的并部署在 Windows 和 OSX 上该应用程序分别在 Windows 和 OSX 上使用 LimeLM API dll 和 d
使用 JavaScript 或 jQuery 设置文本框的最大长度

我想用 JavaScript 或 jQuery 更改文本框的最大长度我尝试了以下方法但似乎没有帮助 var a document getElementsByTagName input for var i 0 i
Windows批处理支持异常处理吗？

Windows批处理编程支持异常处理吗如果没有是否有任何方法可以有效地模拟批处理文件中的异常处理我希望能够在批处理脚本中的任何 CALL 级别的任何位置抛出异常并重复弹出 CALL 堆栈直到找到活动的 TRY 块然后 CATC
在 WPF 中设置控件内容比将类绑定到选择器控件更好的方法是什么？

我有一个分为 4 个面板的应用程序有一个主绘图区域一个顶部面板一个左侧菜单面板和一个右侧子菜单面板如下图所示子菜单的内容由选择哪个顶部菜单按钮决定子菜单的内容由选择哪个右侧菜单决定例如这是单击网络设计和测试扩展器上的第一
如何以编程方式指定 MATLAB 编辑器键绑定

我想将键盘键绑定设置为Windows 默认设置我想在启动时使用startup m因为我希望在大量系统上设置此设置首选项对话框中的等效设置是 MATLAB gt Keyboard gt Shortcuts gt Active Setting
合并分支时，Git 不显示已删除行的当前/传入更改

我正在尝试了解有关 git 分支合并的更多信息一直以来只使用 master 分支我分支两次然后执行合并为什么 git 只显示新的冲突行我想知道为什么删除熊根本没有突出显示为更改您已经在评论中介绍了其中的一些内容但让我们把
由于 __init__ 构造函数而产生的 Pytest 集合警告

我一直在使用 Pytest 和 Selenium Web 驱动程序自学测试自动化我所有的测试函数都在一个名为测试网络 py 它位于名为的目录中tests 我将所有函数分开并将它们放在一个名为的单独目录中的自己的文件中测试用例例如这就
JS：按每个类别的最大值过滤对象数组

什么是最有效优雅的方式来实现类似sql的过滤效果我想过滤它们并只获取某个组中最大值的对象这是我的代码它可以工作但可能不是最好的方法 uniqueValues arr gt new Set arr getMaxTimeOf arr
通过使用 Intents 使用预装的 Google 地图而不是自己的 Activity？

我只是想知道是否可以将地理坐标传递给谷歌地图应用程序之二意图或类似的东西我自己编写了一个用于显示路线坐标等的应用程序但是让谷歌地图本身显示这些不是更优雅吗我不知道这是否可能但也许你们中的一个人可以回答这个问题如果这是可能的是否
R模糊字符串匹配根据匹配的字符串返回特定列

我有两个大型数据集一个大约有 50 万条记录另一个大约有 7 万条记录这些数据集有地址我想匹配较小数据集中的任何地址是否存在于大数据集中正如您所想象的那样地址可以用不同的方式和不同的情况拼写等来书写此外如果只写到建筑物级别

R模糊字符串匹配根据匹配的字符串返回特定列

R模糊字符串匹配根据匹配的字符串返回特定列 的相关文章

随机推荐

热门标签

R模糊字符串匹配根据匹配的字符串返回特定列的相关文章