以同样的方式处理由空格分隔的单词

2024-01-01

我试图找到同时出现在多个文档中的单词。

让我们举个例子。

doc1: "this is a document about milkyway"
doc2: "milky way is huge"

正如您在上面两个文档中看到的，单词“milkyway”在两个文档中都出现，但在第二个文档中术语“milkyway”由空格分隔，而在第一个文档中则不是。

我正在执行以下操作来获取 R 中的文档术语矩阵。

library(tm)
tmp.text <- data.frame(rbind(doc1, doc2))
tmp.corpus <- Corpus(DataframeSource(tmp.text))
tmpDTM <- TermDocumentMatrix(tmp.corpus, control = list(tolower = T, removeNumbers = T, removePunctuation = TRUE,stopwords = TRUE,wordLengths = c(2, Inf)))
tmp.df <- as.data.frame(as.matrix(tmpDTM))
tmp.df

         1 2
document 1 0
huge     0 1
milky    0 1
milkyway 1 0
way      0 1

Term milkyway根据上述矩阵仅出现在第一个文档中。

我希望能够在上述矩阵中的术语“milkyway”的两个文档中都得到 1。这只是一个例子。我需要对很多文档执行此操作。最终我希望能够以类似的方式对待这些词（“milkyway”和“milky way”）。

EDIT 1:

我是否可以强制术语文档矩阵以这样的方式进行计算：对于它试图查找的任何单词，它不应该只将该单词作为字符串中的单独单词查找，而且还要在字符串中查找该单词？例如，一个术语是milky并且有一个文件this is milkyway所以目前在这里milky不会出现在本文档中，但如果算法在字符串中查找相关单词，它也会找到该单词milky在字符串内milkyway, 这样的话milky and way将计入我的两个文档中（前面的示例）。

EDIT 2:

最终我希望能够计算文档之间的相似度余弦索引。

您需要将文档转换为一包原始词之前的代表。其中一个原始词与一组单词匹配。原始词也可以在语料库中。

例如：

milkyway -> {milky, milky way, milkyway} 
economy -> {economics, economy}
sport -> {soccer, football, basket ball, basket, NFL, NBA}

您可以在使用同义词词典和像 levenstein 这样的编辑距离计算余弦距离之前构建这样的词典，这将完成同义词词典。

计算“运动”键更加复杂。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

以同样的方式处理由空格分隔的单词的相关文章

使用 purrr 迭代替换数据帧列中的字符串

我想用purrr使用以下命令在数据框列上迭代运行多个字符串替换gsub 功能这是示例数据框 df lt data frame Year 2019 Text c rep a aa 5 rep a bb 3 rep a cc 2 gt df
如何使用 R 计算成为列表中中位数的概率？

假设我有以下数据集其中显示了假设实验的每个状态的三个观察结果的列表 state lt c Iowa Minnesota Illinois outcome lt list c 5 11 11 c 3 12 8 c 9 14 2 dat lt
尝试读取 CSV 文件时出现“无法识别的字符串转义”

我正在尝试导入一个 csv文件以便我可以观看此视频 R ggplot2 图形直方图 http www youtube com watch v 47kWynt3b6M 我安装了所有正确的软件包包括ggplot以及相关的包视频中的第一个说
pyomo + 网状错误 6 句柄无效

我正在尝试运行pyomo优化我收到错误消息 Error 6 The handle is invalid 不知道如何解释它环顾四周似乎与特权有关但我不太明白在下面找到完整的错误跟踪以及重现它的玩具示例完整的错误跟踪 py run f
twitterR 和 ROAuth R 软件包安装

我在安装 CRAN 上的 twitteR 和 RAOuth 软件包时遇到一些问题我尝试了几种不同的方法在 Windows 下使用源代码在 Ubuntu 下使用 RStudio 我尝试了以下命令 sudo apt get install
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
ddply 和aggregate 之间的区别

有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别数据框 mydat lt data frame first rpois 10 10 second rpois 10 10 third rpois 10 10 group c re
如何从 R keras 中的类似生成器的数据中评估（）和预测（）

我有以下代码数据集可以下载here https www dropbox com s qjt5o31oyqj10m8 data tar gz dl 0 or here https www kaggle com c dogs vs cats
如何在 R 或 Python 中制作旭日图？

到目前为止我一直无法找到一个可以创建旭日图的 R 库约翰斯塔斯科 http www cc gatech edu gvu ii sunburst 有人知道如何在 R 或 Python 中实现这一点吗在极坐标投影中使用 matplotli
如何从 R 中的 txt 文件读取矩阵？

我有一个带有矩阵的txt文件 Matrix txt 重要数字之间没有空格 0100 1001 1100 我想在 R 中将其作为矩阵读取我该怎么做我尝试使用 as matrix read table Matrix txt sep 但失败
ggplot2：如何标记事件发生的日期

我想从第二个情节中获取第一个情节的信息第二张图表示事件发生的天数它看起来更宽因为它没有图例但它是相同的时间尺度我选择在第一个图中手动分配颜色 I would like to overlay the second plot dots
纵向比较 R 中的值...并进行扭转

我有许多人在多达四个时间段进行的测试结果这是一个示例 dat lt structure list Participant ID c A A A A B B B B C C C C phase structure c 1L 2L 3L 4L
如何从 R 读取 PDF 元数据

我们很好奇有没有一种方法可以从 R 读取 PDF 元数据例如下面显示的信息通过搜索我对此无能为力 r pdf metadata在当前的问题库中非常欢迎任何指点我想不出纯 R 的方法来执行此操作但您可能可以安装您最喜欢的 PDF
以编程方式将字符串宽度值插入到 sprintf() 中

我正在尝试以编程方式将字符串宽度值插入到sprintf 格式期望的结果是 sprintf 20s hello 1 hello 但我想插入20在同一通话中即时进行因此它可以是任何号码我努力了 sprintf ds 20 hello 1
使用 template.docx 从 Shiny App 编织 Word 文档

我正在尝试使用 template docx 文件从闪亮的应用程序编写一个 Word 文档我收到以下错误消息 pandoc exe template docx openBinaryFile 不存在没有这样的文件或目录以下 3 个文件当前
无法更改 RStudio 中的 R 版本

我的 RStudio V 0 99 491 无法更改 R 版本我以平常的方式行事Global Options gt R Version 然后它挂起并且不再工作或反应 R 运行良好的初始版本是R 3 1 0 我以前从未遇到过这样的问题也许
如何修复 R 中 Kaplan Meier 图的风险表计算错误

以下是一个数据帧其中 6 个参与者中的每一个都有唯一的 record ID 我想绘制一个生存分析图其中包含感兴趣事件的复发以及在时间间隔 tstart 到 tstop 内暴露药物剂量数值变量的时间依赖性协变量每个参与者的最大
麦当劳 omega：R 中的警告

我正在计算几种不同尺度的欧米茄并在 R 中使用不同的 omega 函数获取不同比例的不同警告消息我的问题是如何解释这些警告以及报告检索到的 omega 统计数据是否安全当我使用从 alpha 到 omega 内部一致性估计普遍问题的
在 Shiny 中的用户会话之间共享反应数据集

我有一个相当大的反应数据集该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的数据更新频繁需要不断重新加载诚然重新加载可以增量完成并附加到 R 中的现有对象但事实并非如此然而目前尽管会话中的数据相同但此操作是针对

随机推荐

为什么 Applicative 应该是 Monad 的超类？

Given Applicative m Monad m gt mf m a gt b ma m a 这似乎被认为是一项法律 mf lt gt ma do f lt mf a lt ma return f a 或者更简洁地说 lt gt ap
获取鼠标相对于饼图的位置（方程）

我已经从一组数据创建了一个画布饼图我现在尝试定位相对于饼图的鼠标位置以检测正在悬停的数据部分我快到了但我被一个方程式困住了我的逻辑运行良好所以我认为这更像是一个数学问题但会看看其他人对我的方法的看法这是我的饼图和我正在使用的
Maven `pom.xml` 中和标签之间的区别[重复]

这个问题在这里已经有答案了配置我的时pom xml 我必须配置一个插件我发现的是
为什么这个特征中需要“Sized”界限？

我有一个具有两个相关功能的特征 trait WithConstructor Sized fn new with param param usize gt Self fn new gt Self Self new with param 0 为
laravel重置密码不重置密码

我正在使用 laravel 6 我第一次尝试为我的 laravel 项目实现忘记密码我自定义了登录忘记密码重置密码页面的默认设计我已经集成了mailtrap用于发送电子邮件我已经成功地实现了这样的流程单击忘记密码链接获取用户输
无论操作系统如何，在 Java 中执行计划任务的最佳解决方案是什么？

我想在我的 Java 桌面应用程序上生成警报设置特定日期时间的警报可以是 5 分钟或 5 个月内我需要能够在触发警报时创建 SWT 应用程序我需要它能够在任何操作系统上工作软件用户可能使用 Windows 其中 90 其余使用
CVXPY 在二次规划优化问题上返回不可行/不准确

我正在尝试使用 CVXPY 来解决非负最小二乘问题附加约束是解向量中的条目之和必须等于 1 然而当我使用 SCS 求解器在这个简单的二次程序上运行 CVXPY 时我让求解器运行最多 100000 次迭代最后遇到错误指出二次程序不可
为什么运行 Rspec 时会出现未定义方法“有”错误？

我最近升级到 Rails 4 除了 Rspec 测试之外一切正常 require spec helper describe Invoice do before each do user FactoryGirl create activat
Laravel 查询生成器 - sum() 方法问题

我是 Laravel 的新手查询生成器有一些问题我想构建的查询是这样的 SELECT SUM transactions amount FROM transactions JOIN categories ON transactions c
如何在 remix run 中从实用程序函数重定向

我正在使用 Remix run 我想从 auth 实用程序函数重定向到我的登录页面但它不起作用这是与我的身份验证实用程序方法类似的功能 import redirect from remix async function authenti
在 for 循环中使用“else”的 Pythonic 方法[重复]

这个问题在这里已经有答案了我几乎没有注意到Python程序在for循环中使用了else 我最近使用它在退出时根据循环变量条件执行操作因为它在范围内在 for 循环中使用 else 的 Python 方式是什么有什么值得注意的用例吗
Jquery找到所有以字符串开头的id？

只是想知道如何在整个页面中搜索以 content 开头的所有 id 以及如何仅在名为 extra content 的命名 div 中找到它们一旦我有了所有的ID 我想隐藏它们下面是我想找到的示例 div div lt Find div
使用 Maven 的 JavaScript 缩小工作流程

我想知道是否有任何最佳实践可以将现代 JavaScript 构建工作流程集成到生成 WAR 工件的 Maven 构建中我发现了几个处理串联和缩小的 Maven 插件 WRO4J https code google com p wr
如何开始 VOIP 编程？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 如何开始开发 VoIP 产品想听听
抛出异常时不调用析构函数

考虑以下代码 include
MongoDB 和 C#：不区分大小写的搜索

我在用MongoDB http www mongodb org 和MongoDB 的 C 驱动程序 http www mongodb org display DOCS CSharp Language Center CSharpLanguag
Android GUI架构-Surface/view/window/canvas之间的关系

更新经过几天的谷歌搜索和实验 https github com pierrchen understandAndroidUI 我已经找到了大部分愚蠢问题的答案查看我提交的答案 Android Window 的职责是什么这里有一些问题它
给定替换 S 和列表 X，如何将 S 应用于 X

假设我有一个替代品S并列出Xs 其中每个变量出现在Xs也发生在S 我如何找到该列表S Xs 即通过应用替换获得的列表S到列表Xs 更具体地说我有一组谓词和 DCG 规则看起来像 pat P gt seg P seg seg X Y Z
Android - 构建通知，TaskStackBuilder.addParentStack 不起作用

我正在尝试从 Android 文档解释的通知启动活动但是当我打开通知然后按后退按钮时 HomeActivity 父级不会打开而是应用程序关闭我究竟做错了什么 Intent resultIntent new Intent contex
以同样的方式处理由空格分隔的单词

我试图找到同时出现在多个文档中的单词让我们举个例子 doc1 this is a document about milkyway doc2 milky way is huge 正如您在上面两个文档中看到的单词 milkyway 在两个文

以同样的方式处理由空格分隔的单词

以同样的方式处理由空格分隔的单词 的相关文章

随机推荐

热门标签

以同样的方式处理由空格分隔的单词的相关文章