两个数据库的模糊匹配和精确匹配

2023-12-12

我有两个数据库。第一个有大约 70k 行 3 列。第二个有 790k 行 2 列。两个数据库都有一个共同的变量grantee_name。我想基于此将第一个数据库的每一行与第二个数据库的一行或多行相匹配grantee_name。注意merge不会工作，因为grantee_name不完美匹配。有不同的拼写等。所以，我使用fuzzyjoin打包并尝试以下操作：

library("haven"); library("fuzzyjoin"); library("dplyr")
forfuzzy<-read_dta("/path/forfuzzy.dta")
filings <- read_dta ("/path/filings.dta")
> head(forfuzzy)
# A tibble: 6 x 3
  grantee_name                 grantee_city grantee_state
  <chr>                        <chr>        <chr>        
1 (ICS)2 MAINE CHAPTER         CLEARWATER   FL           
2 (SUFFOLK COUNTY) VANDERBILT~ CENTERPORT   NY           
3 1 VOICE TREKKING A FUND OF ~ WESTMINSTER  MD           
4 10 CAN                       NEWBERRY     FL           
5 10 THOUSAND WINDOWS          LIVERMORE    CA           
6 100 BLACK MEN IN CHICAGO INC CHICAGO      IL   
... 7 - 70000 rows to go

> head(filings)
# A tibble: 6 x 2
  grantee_name                       ein 
  <chr>                             <dbl>               
1 ICS-2 MAINE CHAPTER              123456             
2 SUFFOLK COUNTY VANDERBILT        654321            
3 VOICE TREKKING A FUND OF VOICES  789456            
4 10 CAN                           654987               
5 10 THOUSAND MUSKETEERS INC       789123               
6 100 BLACK MEN IN HOUSTON INC     987321      

rows 7-790000 omitted for brevity

上面的例子足够清楚，可以提供一些好的匹配和一些不太好的匹配。请注意，例如，10 THOUSAND WINDOWS将最匹配10 THOUSAND MUSKETEERS INC但这并不意味着这是一个很好的匹配。某个地方会有更好的匹配filings数据（上面未显示）。在现阶段这并不重要。

所以，我尝试了以下方法：

df<-as.data.frame(stringdist_inner_join(forfuzzy, filings, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance"))

这对 R 来说是全新的。这会导致错误：cannot allocate vector of size 375GB（当然还有大数据库）。 100 行的样本来自forfuzzy总是有效。因此，我想到一次迭代 100 行的列表。

我已经尝试过以下方法：

n=100
lst = split(forfuzzy, cumsum((1:nrow(forfuzzy)-1)%%n==0))

df<-as.data.frame(lapply(lst, function(df_)
{
(stringdist_inner_join(df_, filings, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance", nthread = getOption("sd_num_thread")))
}
)%>% bind_rows)

我也尝试过上面的方法mclapply代替lapply。即使我尝试使用高性能集群设置3个CPU，每个CPU有480G内存并使用，也会发生同样的错误mclapply与选项mc.cores=3。也许是一个foreach命令可以提供帮助，但我不知道如何实现它。

我被建议使用purrr and repurrrsive包，所以我尝试以下操作：

purrr::map(lst, ~stringdist_inner_join(., filings, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance", nthread = getOption("sd_num_thread")))

在出现新手错误后，这似乎有效by=grantee_name陈述。然而，这需要很长时间，而且我不确定它是否会起作用。示例列表位于forfuzzy100 行，其中n=10（因此 10 个列表，每个列表 10 行）已经运行了 50 分钟，但仍然没有结果。

如果你分开（与base::split or dplyr::group_split）将您的 uniquegrantees 数据框放入数据框列表中，然后您可以调用purrr::map在名单上。（map差不多了lapply)

purrr::map(list_of_dfs, ~stringdist_inner_join(., filings, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance"))

您的结果将是一个数据框列表，每个数据框都与文件模糊连接。然后你可以打电话bind_rows（或者你可以做map_dfr）再次获得同一数据框中的所有结果。

See R - 将一个大数据帧拆分为几个较小的数据帧，对每个数据帧执行模糊连接并输出到单个数据帧

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

两个数据库的模糊匹配和精确匹配的相关文章

查找嵌套列表中元素的索引？

我有一个类似的列表 mylist lt list a 1 b list A 1 B 2 c list C 1 D 3 是否有一种无循环方法来识别元素的位置例如如果我想用 5 替换 C 的值并且在哪里找到元素 C 并不重要我可以这样
如何在R中得到一个大的稀疏矩阵？ (> 2^31-1)

我使用一些 C 代码从数据库中获取文本文件并从该文件创建 dgcMatrix 类型稀疏矩阵Matrix包裹我第一次尝试构建一个具有超过 2 31 1 个非稀疏成员的矩阵这意味着稀疏矩阵对象中的索引向量也必须比该限制长不幸的是向量似
grep() 搜索数据框的列名

有没有更清晰更简单更直接更短的方法来做到这一点其中 df1 是数据框 names df1 grep Yield names df1 我想返回任何包含单词 yield 的列名称 Thanks grep has a value应该适用于
带有用户输入的knitr

我正在使用 R markdown 并使用 Rstudio 来 Knit 我有以下 R markdown 文件 title Untitled author date output html document r setup include F
R - 在浏览器中获取帮助而不是内置的 R 帮助程序

我见过 R help 的两种不同行为当你输入 density例如帮助已在您的默认浏览器中打开帮助在内置 R 帮助程序中打开 R 中的窗口我目前有第二种行为但我想在浏览器中打开帮助我可以轻松地在这两种行为之间切换吗无需重新安装
在 R 中进行 Cox 回归后，将预测危险比列添加到数据帧中

在 R 中运行 Cox PH 回归后我需要在数据框中添加预测风险比的列数据框是面板数据其中 numgvkey 如果公司标识符和年龄是时间标识符您可以从此链接下载一小部分日期 https drive google com file
将值替换为其各自列的名称

我有一个数据框 Code 401k CVS 101A true 231N true FD54 true 99JB 85F4 true 我试图用相应的列名称例如 401k 替换 true 字符值这是我想要的输出 Code 401k CVS
如何更新条件公式？

让我直接进入示例考虑以下等式 frml lt formula y a b x z 使用这样的公式规范例如和AER ivreg 我想更新这个公式使其显示为 frml2 lt y a b c x z w 但是我不确定如何更新条件标志之前
如何在 R 中为传单中的数值变量设置不对称颜色渐变

我想让传单调色板以零为中心红白绿发散我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时我得
R 中的发散积分可在 Wolfram 中求解

我知道我以前问过同样的问题但由于我是新来的这个问题问得不好而且不可重现因此我在这里尝试做得更好如果我只编辑旧的可能没有人会读它我有一个想要积分的二重积分 ff lt function g t exp 16 g exp 8 t t
从 R 环境中删除对象

我正在阅读 Hadley 的 Advanced R 在第 8 章中他说我们可以使用以下方法从环境中删除对象 rm 但是移除该物体后我仍然可以看到该物体这是我的代码 e lt new env e a lt 1 e b lt 2 e a
当每个记录都是一个段落并且某些记录有 4 个字段而其他记录有 6 个字段时，如何将文本文件读入 R

如何读取文本文件其中每条记录都是一个段落每个换行符表示单独的字段复杂的是有些记录有 4 行有些记录有 6 行当字段数量的差异为 1 时 DWin 解决了我的问题但当字段数量差异为 2 时一切都崩溃了你可以有一个在这里看看他
根据另一列中的键累积一列中的值时出现问题

我有一个看起来像这样的数据框我需要使用 PROJ ID 列中的字符串创建一个新的值列并形成 PROJ NAME 列中的值字符串这里提供的解决方案根据 r 中另一列的键累积一列中的值 https stackoverflow com q
仅保留百分比的尾随零

给出以下示例 library pander tableAbs lt Titanic 1 1 tablePct lt round prop table tableAbs 100 2 table lt cbind tableAbs tableP
解析，用三点参数替换

让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
如何按 data.table 中的十分位数组计算统计数据

我有一个 data table 想按组计算统计数据 R set seed 1 R DT data table a rnorm 100 b rnorm 100 这些组应该定义为 R quantile DT a probs seq 1 9 1
为绘图制作 2D 图例 - 双变量分区统计图

我一直在玩双变量 choropleth 地图并且一直在如何创建类似于 2d 图例的问题上陷入困境约书亚史蒂文斯 http www joshuastevens net cartography make a bivariate chorop
为什么 geom_boxplot 比基本箱线图识别更多异常值？

这是一个可重复的示例与基本箱线图相比最后一个治疗组又发现了一个异常值 dta lt structure list Treatment c A A A A A A A A A A A A A A A A B B B B B B B B B
具有 dplyr、tidyverse 和 broom 的相关矩阵 - P 值矩阵

全部我想使用以下方法从相关矩阵中获取 p 值dplyr 和或扫帚包并同时测试多个变量我知道其他方法但 dplyr 对我来说似乎更简单更直观此外 dplyr 需要关联每个变量以获得特定的 p 值这使得该过程更容易更快我检查
单击 R 中的 Sankey Chart 线时添加额外的标签值

以下 R 闪亮脚本创建一个桑基图如下面的快照所示我的要求是当我单击左右节点之间的任何链接即 a1 和 a2 时我希望相应的 a3 的总和出现在标签中例如 a1 中的 A 和 a2 中的 E 总共具有值 50 和 32 因此我想

随机推荐

解析推送通知在 Android 上不起作用

我正在为我的 Android 应用程序使用解析推送通知我按照教程下载 jar 文件然后将其导入到我的项目中并将此代码添加到我的清单中
我的路由如何使用 ASP MVC3 在 URL 中间使用可选参数？

我希望我的 URL 使用以下约定 controller id action 而不是 controller action id 我尝试按如下方式设置路线 routes MapRoute Campaign controller action i
kotlin协程使用withContext获取非阻塞代码时withTimeout不会取消

我正在使用 withContext 将函数转换为不会阻塞调用线程的挂起函数为此我使用了https medium com elizarov blocking threads suspending coroutines d33e11bf476
如何将https重定向到新域？

我重新开发了公司网站但在重定向 SSL 方面遇到了一些问题键入或单击http olddomain org重定向到https newdomain com 但是输入或单击链接https olddomain org不重定向到https ne
JComponent JPanel 缩放、平移和坐标问题

我有一个JPanel带有用户可以缩放和平移的矢量图像覆盖此图像的是透明 JComponent 我允许用户注释底层图像这在全尺寸下效果很好但是如果我放大使用AffineTransform 重叠坐标也会受到影响因此如果用户在图像上
Ember 没有获得某些属性

当从以下位置运行以下命令时UserController在 Google Chrome 上 ember couchdb kit 0 9 余烬数据v1 0 0 beta 3 56 g8367aa5 Ember v1 0 0 and 这个 cou
C++ 搜索性能

我有两个文本文件其中包含大约 70 000 个姓名的列表 1 5MB 另一个包含将从各种来源获得的文本也就是说每次执行程序时该文件的内容都会发生变化 0 5MB 本质上我希望能够将一些文本粘贴到文本文件中并查看在我的列表中找到了
java.lang.NoClassDefFoundError：com/google/gson/Gson

我注意到一个奇怪的问题我可以使用 Junit 运行我的测试用例但是当我使用 maven 运行时其中一个测试用例失败它抱怨没有找到 Gson 类 def 我可以在 Maven 依赖项中看到 Gson jar 所以我怀疑类路径不包括Gs
模型绑定不适用于 asp.net core web api 控制器操作方法中的 Stream 类型参数。（即使使用自定义流输入格式器）

我想将文件上传到 asp net core web api 控制器操作方法我发送的内容类型为 application octet stream 我创建了名为 StreamInputFormatter 的自定义输入格式化程序 StreamI
Angular：如何通过单击复选框来启用和禁用文本框？

我正在使用 Angular 和 TypeScript 并尝试使用复选框启用禁用文本框 app component html
如何将图像设置在顶部以避免 UIimageView 中的空间

我有一个 UIImageView 其内容模式 Aspect Fit 大小为 220x155 我动态插入不同分辨率的不同图像但都大于 UIImageView 的大小当内容模式设置为 Aspect Fit 时图像将根据比例缩放以适合 UI
移动网络应用程序的自动完成[重复]

这个问题在这里已经有答案了可能的重复让 jQuery Ui 自动完成功能与 jQuery Mobile 配合使用是否有一个开箱即用的解决方案示例用于移动网络应用程序例如 iPhone Android 2 1 设备等的自动完
将数组复制到过滤范围会产生不合理的结果

将过滤范围的值复制到数组似乎没有问题然后该数组包含来自过滤和未过滤单元格的值但是当我将数组的内容复制回过滤范围时结果对我来说是不可理解的这是我的代码 Sub test Dim rangecopy As Variant rangec
Android 位置管理器，获取 GPS 位置，如果没有 GPS，则获取网络提供商位置

我正在使用下面给出的代码来获取位置 public Location getLocation try mLocationManager LocationManager context getSystemService LOCATION SER
即使用户在 Google 表格中键入或粘贴小写字母且没有警告，如何将单元格区域大写

我在谷歌工作表文件中的许多工作表之一中制作了一个简单的表格我希望工作表的单元格范围始终显示为大写无论用户输入什么而没有任何警告目前我在 Apps 脚本中找到并使用了下面的脚本它适用于所有工作表并且仅适用于输入文本而不是粘贴的文
非常轻量级的 Eclipse-Maven 集成 - 仅依赖项管理？

根据我的经验 Maven 在小型实验应用程序中通常是一种过度杀伤力但依赖管理是 Maven 非常有用的功能实际上也是唯一对上述类型的应用程序真正有帮助的功能我想知道我是否可以拥有一个非常小巧轻便Eclipse Maven 集成提供o
针对 PayPal 网站支付标准的移动优化结账

如何获得 PayPal 在其移动网站支付标准页面上描述的移动优化结账体验 https www x com developers paypal products mobile website payments standard 文档称如果
Isabelle/HOL 中的对象级含义

我发现 Isabelle HOL 中的许多定理更喜欢元级蕴涵 gt 代替 gt 对象逻辑级别即高阶逻辑含义伊莎贝尔维基说粗略地说应该使用元级别含义将规则语句中的假设与结论分开除此之外关于对象和元级别含义的使用我应该了解什么我发现
GridView 在 C# 中添加第二和第三标题行

我有一个ASP NET C GridView其中的列如下所示 Foo Bar Total1 Total2 Total3 是否可以在看起来像这样的行上创建标题 General Totals A B C Foo Bar 1 2 3 我尝试过行创
两个数据库的模糊匹配和精确匹配

我有两个数据库第一个有大约 70k 行 3 列第二个有 790k 行 2 列两个数据库都有一个共同的变量grantee name 我想基于此将第一个数据库的每一行与第二个数据库的一行或多行相匹配grantee name 注意merge

两个数据库的模糊匹配和精确匹配

两个数据库的模糊匹配和精确匹配 的相关文章

随机推荐

热门标签

两个数据库的模糊匹配和精确匹配的相关文章