请问有人可以帮我解答这个问题吗?多谢!
我有一些这样的数据:
A B
fruit red apple
fruit green apple
fruit yellow apple
fruit kiwi
fruit golden kiwi
juice apple juice
juice orange juice
我想得到以下内容:
A B freq
fruit apple 3
fruit kiwi 2
juice apple 1
juice orange 1
我可以提供一个字符串向量来在 B 中搜索(即我知道我想查找“apple”、“kiwi”和“orange”)。例如,如果“fruit”中有一个“banana”,而我要搜索的项目列表中没有“banana”,则只需在结果中以频率 1 显示“banana”即可。
计算具有特定值的观测值的数量是一种单行式table
:
library(stringr)
table(paste(df$A, str_extract(df$B, paste(lookingfor, collapse="|")), sep="."))
# fruit.apple fruit.kiwi juice.apple juice.orange
# 3 2 1 1
Here, paste(lookingfor, collapse="|")
生成一个正则表达式来查找您的所有单词,str_extract
提取您要查找的单词,外部paste
将A
具有提取值的变量(用.
) and table
计算每个配对的计数。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)