如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复]

2024-03-07

我有一个包含 2 列的 DF，并且有一个单词列表。

list_of_words <- c("tiger","elephant","rabbit", "hen", "dog", "Lion", "camel", "horse")

df <- tibble::tibble(page=c(12,6,9,18,2,15,81,65),
               text=c("I have two pets: a dog and a hen",
                      "lion and Tiger are dangerous animals",
                      "I have tried to ride a horse",
                      "Why elephants are so big in size",
                      "dogs are very loyal pets",
                      "I saw a tiger in the zoo",
                      "the lion was eating a buffalo",
                      "parrot and crow are very clever birds"))

animals <- c("dog,hen", "lion,tiger", "horse", FALSE, "dog", "tiger", "lion", FALSE)

cbind(df, animals)
#>   page                                  text    animals
#> 1   12      I have two pets: a dog and a hen    dog,hen
#> 2    6  lion and Tiger are dangerous animals lion,tiger
#> 3    9          I have tried to ride a horse      horse
#> 4   18      Why elephants are so big in size      FALSE
#> 5    2              dogs are very loyal pets        dog
#> 6   15              I saw a tiger in the zoo      tiger
#> 7   81         the lion was eating a buffalo       lion
#> 8   65 parrot and crow are very clever birds      FALSE

我需要查明列表中的任何单词是否出现在 DF 的某一列中。如果是，则将单词返回到 DF 中的新列。这是单词列表 ->（老虎、大象、兔子、母鸡、狗、狮子、骆驼、马）。这就是我的 DF 的样子 https://i.stack.imgur.com/CIFWd.jpg 我想要这样的东西 https://i.stack.imgur.com/nUp9S.jpg

library(dplyr)

df %>% 
  rowwise() %>%
  mutate(animals = paste(list_of_words[unlist(
    lapply(list_of_words, function(x) grepl(x, text, ignore.case = T)))], collapse=",")) %>%
  data.frame()

输出是：

  page                                  text    animals
1   12                       pets: dog & hen    hen,dog
2    6 Lions and tigers are dangerous animal tiger,Lion
3    9          I have tried to ride a horse      horse
4   65   parrot & crow are very clever birds

样本数据：

df <- structure(list(page = c(12, 6, 9, 65), text = structure(c(4L, 
2L, 1L, 3L), .Label = c("I have tried to ride a horse", "Lions and tigers are dangerous animal", 
"parrot & crow are very clever birds", "pets: dog & hen"), class = "factor")), .Names = c("page", 
"text"), row.names = c(NA, -4L), class = "data.frame")

list_of_words <- c("tiger", "elephant", "rabbit", "hen", "dog", "Lion", "camel", "horse")

**Another approach:**

library(data.table)
setDT(df)[, animals := paste(list_of_words[unlist(lapply(list_of_words, function(x) grepl(x, text, ignore.case = T)))], collapse = ","), by = 1:nrow(df)]

#> df
#   page                                  text    animals
#1:   12                       pets: dog & hen    hen,dog
#2:    6 Lions and tigers are dangerous animal tiger,Lion
#3:    9          I have tried to ride a horse      horse
#4:   65   parrot & crow are very clever birds

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

textmining

如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复] 的相关文章

如何获得 STAN 中最大似然估计的标准误差？

我在 Stan 中使用最大似然优化但不幸的是optimizing 函数不报告标准错误 gt MLb4c lt optimizing get stanmodel fitb4c data win data init inits STAN OP
将循环转换为并行计算的函数

我正在使用 R 编程语言我遇到这个问题我试图找出两个 shapefile 之间的成对交集即第一个 shapefile 中的每个多边形与第二个 shapefile 中的所有多边形相交的百分比我想我找到了解决这个问题的基本方法 Load
返回数据帧 R 中的下一行

我有一个看起来像这样的数据框 kind datetime book 2016 04 23 04 23 00 pen 2016 04 23 04 30 00 toy 2016 04 23 06 45 00 我想为数据集中的每一行返回下一行的日
如何对同一列上的数据帧列表中的所有数据帧进行排序？

我有一个数据框列表dataframes list 举个例子我把dput dataframes list 在底部我想对列列表中的所有数据框进行排序enrichment 我可以对一个数据框进行排序 first dataframe lt da
.wav 文件长度/持续时间，无需读入文件

有没有办法提取有关 wav 文件长度持续时间的信息而无需在 R 中读取文件我有数千个这样的文件如果我必须阅读每个文件才能找到其持续时间那将需要很长时间 Windows 文件资源管理器为您提供了打开长度字段的选项并且您可以查看
如何在R中删除重复项

我有一个非常大的数据集如下所示 df lt data frame school c a a a b b c c c year c 3 3 1 4 2 4 3 1 GPA c 4 4 4 3 3 3 2 2 school year GPA
如何在 ggplot 中保持配色方案，同时删除每个图中未使用的级别？

我想比较一个图中的数据的一些子组和另一图中的一些其他子组如果我绘制一个图其中绘制了所有子组那么这个数字将是巨大的并且每个单独的比较都会变得困难我认为如果给定的子组在所有图中都具有相同的颜色这对读者来说会更有意义这是我尝试过的两
LDA with topicmodels，如何查看不同文档属于哪些主题？

我正在使用 topicmodels 包中的 LDA 我已经在大约 30 000 个文档上运行它获取了 30 个主题并获得了主题的前 10 个单词它们看起来非常好但我想看看哪些文档属于哪个主题的概率最高我该怎么做 myCorpus
如何从 R 运行带有特定模块的 perl 脚本？

我可以从终端运行 perl 脚本 myperlscript pl 没有任何问题但是如果我尝试从 RStudio 中运行相同的 perl 脚本则会出现以下错误 command lt myperlscript pl outputfile
R - Plm 和 lm - 固定效应

我有一个平衡面板数据集 df 本质上由三个变量组成 A B and Y 对于一堆独特识别的区域来说它会随着时间的推移而变化我想运行一个回归其中包括区域下面等式中的区域和时间年份固定效应如果我没记错的话我可以通过不同的方式来
使用 purrr 迭代替换数据帧列中的字符串

我想用purrr使用以下命令在数据框列上迭代运行多个字符串替换gsub 功能这是示例数据框 df lt data frame Year 2019 Text c rep a aa 5 rep a bb 3 rep a cc 2 gt df
如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
kernlab 中 SVM 训练之外的核矩阵计算

我正在开发一种新算法该算法可以生成修改后的核矩阵以用于 SVM 训练但遇到了一个奇怪的问题出于测试目的我比较了使用 kernelMatrix 接口和普通内核接口学习的 SVM 模型例如 Model with kernelMatri
在 R 中创建虚拟变量，排除某些情况为 NA

我的数据看起来像这样 V1 V2 A 0 B 1 C 2 D 3 E 4 F 5 G 9 我想创建一个虚拟变量R where 0 1 1 2 3 4 and NA 0 5 9 应该很简单有人可以帮忙吗我们可以转换V2 into a fa
以引用透明的方式从函数的省略号参数中提取符号

事情又发生了我正要按下发布答案按钮的问题被删除了我正在寻找一种方法来从函数的省略号参数中提取绑定到符号的对象的值以及符号也就是说我试图以引用透明的方式从省略号中提取符号我尝试过使用替代品和lazy dots 但没有成功 funct
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
ddply 和aggregate 之间的区别

有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别数据框 mydat lt data frame first rpois 10 10 second rpois 10 10 third rpois 10 10 group c re
基于时间窗口的不规则时间序列的优化滚动函数

有没有办法使用 rollapply 来自zoo包或类似的东西优化功能 rollmean rollmedian等使用基于时间的窗口计算滚动函数而不是基于大量观察的函数我想要的很简单对于不规则时间序列中的每个元素我想计算一个具有 N
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
更改闪亮 R 中的默认浏览器

我在 RStudio 中使用 01 hello 虽然在 IE 中默认打开程序时它不会显示直方图但即使在 Chrome 中滑块也不起作用我无法滑动条形图并看到直方图中的变化如何更改 R 中的默认浏览器以便闪亮启动 Chrome 而不

随机推荐

如何在 AngularJS 中对隔离范围指令进行单元测试

在 AngularJS 中对隔离范围进行单元测试的好方法是什么 JSFiddle 显示单元测试 http jsfiddle net daniellmb b7BRR 指令片段 scope name myGreet link function
Solidity：在公共方法中返回数组

我正在尝试创建一个返回数组的公共函数这是错误返回参数类型映射 uint256 gt struct ItemList Item storage ref 不能隐式转换为预期类型第一个的类型返回变量 uint256 内存 pragma s
如何手动解码 JPEG 无损、非分层、一阶预测

我正在尝试仅使用 JavaScript 和 HTML5 自己创建 DICOM 查看器过去几天我一直在研究这个项目现在我成功解析了我需要的所有文本信息并且我还可以正确读取和显示未压缩的灰度和 RGB 图像现在我正在尝试显示所谓的 JP
活动和共享视图之间的动画：动画结束时出现故障/黑客行为？

因此我面临的问题是我在两个活动和两个共享视图之间执行的动画看起来不太好问题在于它的故障当从 Activity2 返回到 Activity1 时共享的 TextView 在动画结束时会闪烁在不到一秒的时间内显示 Activity2
如何从seaborn/matplotlib图中删除或隐藏x轴标签

我有一个箱线图需要删除 x 轴 user type 和 member gender 标签鉴于以下格式我该如何执行此操作 sb boxplot x user type y Seconds data df color default co
配置时未为参数“appIdName”提供值

我刚刚注册了 Apple 的 iOS 开发者计划帐户类型个人在 iPhone 4 设备上的 Xcode 管理器中我单击将设备添加到配置门户 gt Xcode 询问我的凭据 gt 我输入它们 gt 我看到没有为参数 appIdNa
Keras/Tensorflow Conv1D 预期输入形状

我想对 29 个特征输入数据如 29x1 形状应用一维卷积我告诉凯拉斯input shape 29 1 但我收到一个错误它期望输入具有 3 个维度但得到形状为 4000 29 的数组为什么 Keras 期望 3 维 Keras
特定 Windows 用户组的 Windows 身份验证

我创建了asp net网页我想在单击登录按钮时使用Windows用户名和密码登录我的asp页面我搜索了一些代码 http www codeproject com Articles 37558 Windows Authentication
安装 Ruby 2.0.0 时出现“无法加载此类文件 -- rubygems/defaults/operating_system”

我需要 Ruby 2 0 0 因此我求助于 RVM 来帮助管理我的 ruby 安装然而当我这样做时rvm install ruby 2 0 0 安装最终失败 rvm install ruby 2 0 0 Searching for bi
有没有一种方法可以在不读取 Linux 上的 proc/sys 文件的情况下获取电池信息（状态、插入等）？

我想在linux上用C获取有关电池的信息我don t想要阅读或解析any文件是否有任何与 acpi 内核或任何其他模块的低级接口来获取我想要的信息我已经在网上搜索过但每个问题都会得到答案 parse proc foo bar 我真的
如何通过 glm.mids 使用构造公式

处理大量变量并使用构造公式来处理它们通过paste0 使用传递给函数的变量我偶然发现了一个我无法弄清楚的问题错误用一个玩具示例最简单地解释 library mice imp2 mice nhanes So both these mo
Facebook .NET SDK：如何使用 ASP.NET MVC 2 进行身份验证

我正在尝试掌握 Facebook SDK 同时从 ASP NET 表单过渡到 MVC 最终所以请耐心等待我创建了两个控制器操作当用户单击表单上的 FB 登录按钮时将执行 FBLogon 然后他被重定向到 FB 登录页面然后他被发
配置深度溢出值 - Start-Job

我有一个递归函数执行了大约 750 次迭代 XML 文件并进行处理代码正在运行使用Start Job 下面的例子 job Start Job ScriptBlock function Test Function Param count
推送更新页面时自动编译的 ASP.NET 站点上出现随机 401 错误

我们有一个部署在多个 IIS 服务器上的 asp net 网站该网站是按需编译的而不是预编译的 Web 应用程序通常情况下部署进展顺利但时不时地我们会在其中一台服务器上的某个已部署页面上收到 401 错误除了通常是访问量较高的
在 Microsoft botframework 中回复“正在输入”消息

我正在 c net 和 LUIS 认知服务上使用 MicrofsoftBotFramework 开发聊天机器人我希望当用户输入时它应该在输入或机器人正在输入时回复 public async Task
大写连字符的名称

我在用WordUtils来自 apache commons 来正确规范人们的名字例如 AnGEl lEe gt Angel Lee 而且效果很好现在我提出的测试用例之一是连字符名称通常连字符的每个部分的第一个字母都大写所以我期望
如何在 Rmarkdown 中添加跨块的行号？

我想将代码行编号添加到 Rmarkdown 文件的 HTML 输出中我会对任何方法感到满意uniquely标识输出中的每一行代码例如在整个文档中递增的连续行号或者代码块由它们自己的索引标识并且在这些代码块中行号从 1 开始我一直
Kubectl 还记得我吗？

我已经在我的 kubernetes api 服务器上实现了基本身份验证现在我正在尝试配置我的 kube config以我可以简单运行的方式文件 kubectl get pods kubectl config set cluster dig
使用 Rack::Test 测试 AJAX POST - 如何传入数据？

我在用着机架测试 https github com brynary rack test测试我的应用程序并需要测试通过 AJAX 发布数据我的测试看起来像 describe POST user do include Rack Test M
如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复]

这个问题在这里已经有答案了我有一个包含 2 列的 DF 并且有一个单词列表 list of words lt c tiger elephant rabbit hen dog Lion camel horse df lt tibble ti

如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复]

如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复] 的相关文章

随机推荐

热门标签