测试单词是否在字符串中（grepl、fuzzyjoin？）

2024-01-18

如果一个数据帧的两列中的字符串包含在第二个数据帧的一列的字符串中，我需要对两个数据帧进行匹配和连接。

示例数据框：

First <- c("john", "jane", "jimmy", "jerry", "matt", "tom", "peter", "leah")
Last  <- c("smith", "doe", "mcgee", "bishop", "gibbs", "dinnozo", "lane", "palmer")
Name  <- c("mr john smith","", "timothy t mcgee", "dinnozo tom", "jane  l doe", "jimmy mcgee", "leah elizabeth arthur palmer and co", "jerry bishop the cat")
ID    <- c("ID1", "ID2", "ID3", "ID4", "ID5", "ID6", "ID7", "ID8")

df1 <- data.frame(First, Last)
df2 <- data.frame(Name, ID)

所以基本上，我有df1其名字和姓氏相当有序；我有df2，其中的名称可以组织为“名字、姓氏”或“姓氏名字”或“名字 MI 姓氏”或完全包含该名称的其他名称。我需要ID专栏来自df2。所以我想运行一段代码看看是否df1$First and df2$Last是字符串中的某个位置df2$Name，如果是，则将其拉出并加入df2$ID to df1.

我的 R 大师告诉我使用fuzzy_left_join来自fuzzyjoin包裹：

fzjoin <- fuzzy_left_join(df1, df2, by = c("First" = "Name"), match_fun = "contains")

但它给了我一个错误，即论证不符合逻辑；我不知道如何重写它来实现我想要的；这文档 https://rdrr.io/cran/fuzzyjoin/man/fuzzy_join.html说match_fun应该TRUE or FALSE，但我不知道该怎么办。另外，它只匹配df1$First而不是df1$First and df1$Last。我想我也许可以使用grepl https://stackoverflow.com/questions/10128617/test-if-characters-are-in-a-string，但不确定如何根据我见过的例子。有什么建议吗？

文档说match_fun应该是一个“给定两列的向量化函数，返回TRUE or FALSE至于他们是否匹配。”它不是 TRUE 或 FALSE，它是一个返回的函数TRUE or FALSE。如果我们更改您的订单，我们可以使用stringr::str_detect，它确实返回TRUE or FALSE按要求。

fuzzyjoin::fuzzy_left_join(
  df2, df1,
  by = c("Name" = "First", "Name" = "Last"),
  match_fun = stringr::str_detect
)
#                                  Name  ID First    Last
# 1                       mr john smith ID1  john   smith
# 2                                     ID2  <NA>    <NA>
# 3                     timothy t mcgee ID3  <NA>    <NA>
# 4                         dinnozo tom ID4   tom dinnozo
# 5                         jane  l doe ID5  jane     doe
# 6                         jimmy mcgee ID6 jimmy   mcgee
# 7 leah elizabeth arthur palmer and co ID7  leah  palmer
# 8                jerry bishop the cat ID8 jerry  bishop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

测试单词是否在字符串中（grepl、fuzzyjoin？）的相关文章

如何在不循环的情况下添加组ID？

我有数据框例如 productid ordernum p1 10 p2 20 p3 30 p4 5 p5 20 p6 8 我想添加另一列称为 groupid 它将产品按顺序分组在一起一旦 sum ordernum 达到 30 分配一个
如何使用 R 中带引号的字符值内的序列读取 CSV？

这是一个包含两个字符列的 CSV 文件 key value a 所有字符值都用双引号引起来并且有一个顺序在值之一内转义引号加分隔符我无法通过 read csv readr 中的 read csv 或 data table 中的 fr
ggplot 中的错误问题：“grid.Call(”L_textBounds“, as.graphicsAnnot(x$label), x$x, x$y, … 中的错误”[重复]

这个问题在这里已经有答案了我试图在 ggplot 中制作一个条形图其中我通过强制其中一些标签为长度为零的字符串即来指定要显示的标签但是我收到错误 Error in grid Call L textBounds as graphi
查找数据帧列表中同一列中的所有重复值并将其转换为 NULL

我有一个清单BELGIAN COAST list包含数百个数据帧 df1 df2 15 列 X 1000 行每个数据帧的最后一列称为Chemicals并包含一些字符例如Sulfate or Ammonia 但是这一列有很多行Chemic
R：将 readRDS 应用于 .Rds 文件名的列表对象

我有几个包含数据帧对象的 Rds 文件我想对每个文件应用一个函数并将数据帧绑定到单个数据帧中但是当我尝试从文件名列表中读取多个 Rds 文件时我收到错误 FUN X i 中的错误从连接读取时出错 readRDS 不适用于列表吗 R
错误：“rjags”的包或命名空间加载失败

在终端的 conda 环境之一中我能够成功安装包 rjags 但是当我在该环境中运行 R 并运行库 rjags 时出现以下错误加载所需的包 coda 错误 rjags 的包或命名空间加载失败 rjags 的 loadNamespac
在另一个 Rmd 中运行选定的块

我已经在源 Rmd 文件中运行了分析并且希望仅使用few来自源的块我已经看到了一些关于从源 Rmd 中提取所有块的答案来自另一个 Rmd 中的 Rmd 文件的源代码 https stackoverflow com questions 4
R 编程：如何计算数据框中两个单元格之间的差异并将它们保存在新列中

尝试学习 R 并陷入自相关示例中我想将 x 的差异与 y 的差异进行回归我在数据框中有 x 和 y 并且希望将 x2 x1 的差值保存在新列例如 dx 中我不知道该怎么做我拥有的 data1 x y 5 3 8 9 3 1 1 5
如何更改 Shiny 中 navbarPage 折叠的断点

我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时将导航元素折叠到菜单中默认情况下当浏览器宽度小于 940 像素时会触发折叠有什么方法可以改变这一点以便在稍大的浏
解析，用三点参数替换

让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
表单提交时出现 rvest 错误

我想从以下网页中抓取数据 https swgoh gg u zozo collection 180 emperor palpatine https swgoh gg u zozo collection 180 emperor palpati
如何计算嵌套函数中的粘合表达式？

我正在尝试嵌套一个函数该函数将两个字符串粘合在一起该函数使用组合字符串来命名数据帧的列然而问题似乎是粘合表达式没有足够早地评估为字符串我可以并且应该强制在将表达式作为参数传递给另一个函数之前对其进行求值吗 library ti
ggplot散点图中的图例问题

我想使用 ggplot 创建显示方法比较数据的散点图绘图应包含原始数据理想线和带误差的拟合线图例应显示理想线和拟合线的线型线宽线颜色我可以获得大部分我想要的东西但是图例存在以下问题图例显示每种线型有 2 条线为什么如何解
具有 dplyr、tidyverse 和 broom 的相关矩阵 - P 值矩阵

全部我想使用以下方法从相关矩阵中获取 p 值dplyr 和或扫帚包并同时测试多个变量我知道其他方法但 dplyr 对我来说似乎更简单更直观此外 dplyr 需要关联每个变量以获得特定的 p 值这使得该过程更容易更快我检查
非闪亮上下文中的反应式对象绑定

实际问题你怎样才能近似反应性环境行为 http shiny rstudio com tutorial lesson6 建立者shiny http shiny rstudio com函数或者甚至可能在一个函数中使用这些函数无光泽上下文以
从数据框创建稀疏矩阵

我正在做一项作业尝试为 Netflix 奖项数据构建协作过滤模型我使用的数据位于 CSV 文件中我可以轻松地将其导入到数据框中现在我需要做的是创建一个稀疏矩阵其中用户作为行电影作为列每个单元格都由相应的评级值填充当我尝试绘制
如何从R arrow中的feather文件中读取列名和元数据？

现已取代独立R 的羽毛库 https github com wesm feather有一个函数叫做feather metadata 允许从磁盘上的羽毛文件中读取列名称和类型而无需打开它们当在 R 中加载羽毛文件时这对于仅选择特定列很
R - tidyr - 变异并传播多列

我在 R 中有以下数据框 my df test lt data frame V1 c 1 2 1 V2 c A B A V3 c S1 S1 S2 V4 c x x x V5 c y y y V6 c A B C V7 c D E F my
更改计划的开始日期以优化资源

我有很多工作需要在特定的时间间隔执行然而我们每天完成这项工作的资源有限因此我正在尝试优化开始时间日期开始时间日期只能向前移动不能向后移动以便每天使用的资源与我们的预算更加不相似这些函数在下面的示例中使用 Function t
检查单词是否存在于英语词典 r 中

我正在对多个进行一些文本分析resume生成一个wordcloud using wordcloud包装连同tm用于在 R 中预处理文档语料库的包我面临的问题是检查语料库中的单词是否具有某种含义即它属于英语词典如何一起挖掘处理多份

随机推荐

如何使用底部选项卡导航处理 SafeArea 的背景颜色？

目前的行为大家好我想设置底部选项卡的背景颜色所以我做了如下
代表 MSA（Microsoft 个人）和 AAD 帐户的 Azure Ad v2.0 端点

我们有一个面向用户的 Web 应用程序和一个中间层 ASP NET Core Web api 目前在 Azure Ad v1 0 端点上使用 OAuth 2 0 代表流 OBO 仅对 AAD 帐户进行身份验证我们还需要对 MSA 个人帐
车把缩小 HTML

在 Node js Express 应用程序中是否有一种方法可以在将所有 Handlebars 模板发送到渲染器之前缩小它们我考虑创建一个 Express 中间件来对 HTML 响应正文进行缩小但我很快意识到这是非常无效的因为缩小会
使用正则表达式替换特定的 HTML 标签

好吧这对你们来说很简单我们使用 ActiveReports RichTextBox 来显示一些随机的 HTML 代码 ActiveReport 支持的 HTML 标签可以在这里找到 http www datadynamics com H
从子类访问实例变量

我正在尝试从子类访问父类的数据成员我不知道如何称呼它我找到了很多有关访问类变量但不是子类中的实例变量的信息这是我的代码 class Shape var woohoo def initialize end def area end en
模板类，函数特化

我想要一个类似于下面的模板类然后我想要其中有一个具有模板专业化的函数具体取决于 CLASS 模板参数我该如何进行这项工作我意识到我提供的代码在很多层面上都是错误的但这只是为了说明这个概念 template
CDI 事务拦截器不工作

我有一个包含以下类的 Java SE 应用程序 main public static void main String args Weld weld new Weld WeldContainer container weld initial
Android M FingerprintManager.isHardwareDetected() 在 Samsung Galaxy S5 上返回 false

我刚刚通过以下列出的手动说明将 Verizon Samsung Galaxy S5 SM G900V 更新为 G900V U2 DPD1 版本http www androidofficer com 2016 06 g900vvru2dpd1
如何让Electron WebView填充指定尺寸？

我尝试将 Electron WebView 添加到基本应用程序并设置 minwidth 和 minheight 如下所示当它加载时它总是以 784px X 150px 结束
如何在 Javascript 中克隆 XML 文档？

在 Javascript 中克隆 XML 文档的最佳方法是什么我尝试做 var newDocument myDocument cloneNode true 但那刚刚回来null 我也考虑过做 var newNode myDocument
SecurityError：使用 Selenium Python 单击 iframe 中的下载链接时出现跨源对象访问属性“文档”的权限被拒绝

我正在开发一个自动化项目我正在尝试从网站下载 pdf 文件该网站仅包含 pdf 文件但网页的文件类型是 HTML pdf 使用 PDF js 显示 PDF js 查看器也在 iframe 中当我尝试使用浏览器 JavaScript
使用 Espresso 测试 Snackbar 显示

有没有办法使用 Espresso 测试小吃栏是否显示正确的文本我有一个简单的调用来创建一个小吃栏 Snackbar make mView My text Snackbar LENGTH LONG show 我尝试过这个但没有运气 onVi
导入错误：没有名为 matplotlib 的模块

几个月前 Matplotlib 运行良好但现在我不断收到错误 ImportError No module named matplotlib 我再次使用 pip 安装了 matplotlib 它不起作用我用的是简易安装还是行不通 pip
如何连接php7和mongoDB

我正在尝试将 PHP 7 与 mongoDB 连接我按照以下步骤使用 pecl 安装了新 MongoDB 驱动程序page https mongodb github io mongo php driver 指示我可以看到 MongoD
在 Rails 应用程序中执行 Ruby 脚本

我可以在 Rails 应用程序的控制台中运行以下命令并将 CSV 文件导入到我的数据库中 require csv row will be an array with the fields in the order they appear
更新 Azure 容器实例中的 docker 映像

我在 docker hub 的存储库中有一个镜像我根据 docker hub 上存储库中的映像创建了 azure 容器实例我更新了 docker hub 上存储库中的图像如何将更改应用到容器如果您遵循命名标签的做法 latest然后
使用数据存储 (NDB)、搜索 API 或同时使用两者来查看数据？

在 CMS 中使用常规 NDB 查询和排序来检索客户列表为了允许对姓名公司名称和电子邮件进行过滤我创建了多个有时是多个索引情况并不理想但可行现在有实验性的搜索接口 https developers google com
验证 NSString 中是否存在单词

我搜索了一下但找不到这个可能非常简单问题的答案我有一个 NSString 我想检查它是否包含单词像这样的事情 NSString sentence The quick brown fox NSString word quack if
在 Woocommerce 商店页面上的类别列表中隐藏产品类别

我想在 Woocommerce 商店页面的类别列表中隐藏某个产品类别我找到并使用以下代码片段来执行此操作 add filter get terms exclude category 10 3 function exclude catego
测试单词是否在字符串中（grepl、fuzzyjoin？）

如果一个数据帧的两列中的字符串包含在第二个数据帧的一列的字符串中我需要对两个数据帧进行匹配和连接示例数据框 First lt c john jane jimmy jerry matt tom peter leah Last lt c s

测试单词是否在字符串中（grepl、fuzzyjoin？）

测试单词是否在字符串中（grepl、fuzzyjoin？） 的相关文章

随机推荐

热门标签

测试单词是否在字符串中（grepl、fuzzyjoin？）的相关文章