根据词典数据框替换语料库中的单词

2023-12-13

我有兴趣替换 a 中的所有单词tm根据由两列数据框组成的字典的语料库对象,其中第一列是要匹配的单词,第二列是替换单词。

我被困住了translate功能。我看见这个答案但我无法将其转换为要传递给的函数tm_map.

请考虑以下 MWE

library(tm)

docs <- c("first text", "second text")
corp <- Corpus(VectorSource(docs))

dictionary <- data.frame(word = c('first', 'second', 'text'),
                      translation = c('primo', 'secondo', 'testo'))

translate <- function(text, dictionary) {
  # Would like to replace each word of text with corresponding word in dictionary
}

corp_translated <- tm_map (corp, translate)

inspect(corp_translated)

# Expected result

# A corpus with 2 text documents
#
# The metadata consists of 2 tag-value pairs and a data frame
# Available tags are:
#   create_date creator 
# Available variables in the data frame are:
#   MetaID 

# [[1]]
# primo testo

# [[2]]
# secondo testo

我会建议not用一个data.frame对于字典来说,因为基本对象R,一个向量,默认是一个字典。

      dict  <- c('primo', 'secondo', 'testo')
names(dict) <- c('first', 'second', 'text')

Then to "tanslate" x, where x可能"second",您只需使用:

   dict[[x]]

您甚至不需要包装函数。


如果您想向相反方向平移,请使用

   name(dict)[names(dict) %in% x]

或者你可以翻一下字典

         dict.flip  <- names(dict)
   names(dict.flip) <- dict
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

根据词典数据框替换语料库中的单词 的相关文章

  • 在 R 中进行 Cox 回归后,将预测危险比列添加到数据帧中

    在 R 中运行 Cox PH 回归后 我需要在数据框中添加预测风险比的列 数据框是面板数据 其中 numgvkey 如果公司标识符 和年龄是时间标识符 您可以从此链接下载一小部分日期 https drive google com file
  • 可以明确声明包依赖项的版本吗?

    我倾向于对我编写的代码进行明确而不是隐含的描述 因此 在成功创建自己的包之后 我立即想到的下一件事是如何最好地确保代码的健壮性和可靠性 其中一部分与我的包所依赖的包有关 实际问题 在这方面 是否可以明确声明需要 期望哪个版本的包依赖项 我正
  • R从列表中提取数据框,列名中没有前缀

    我在列表中放置了一个数据框 然后 当尝试将其提取回来时 我得到了该数据帧的所有以列表键为前缀的列名称 有没有办法完全按照最初传递的方式提取数据帧 cols lt c column1 Column2 Column3 df1 lt data f
  • 如何使用 NLP 确定句子中的中心词?

    例如 如果我得到一个句子 一名英国士兵在阿富汗战斗中丧生 这句话的中心词是 杀 给定 Python 中的 nltk 包 我怎样才能找到它 我不是在谈论词干 我指的是中心词 您正在寻找中心词句子解析 它可以在 Python 的 nltk 包中
  • R 中的 NA 替换函数

    我正在尝试替换矩阵中的 NA mat 零 我在用着mat is na mat lt 0 当我有 18946 个变量的 94531 个观察值或更小的矩阵时 效果很好 但我在 22752 个变量的 112039 个观察值的矩阵上尝试它 R 显示
  • 使用底格里斯河从纬度/经度获取人口普查区

    我有相对较多的坐标 我想获取其人口普查区 除了 FIPS 代码 我知道我可以使用以下命令查找各个纬度 经度对call geolocator latlon 已完成here https stackoverflow com questions 5
  • 如何在不循环的情况下添加组ID?

    我有数据框 例如 productid ordernum p1 10 p2 20 p3 30 p4 5 p5 20 p6 8 我想添加另一列 称为 groupid 它将产品按顺序分组在一起 一旦 sum ordernum 达到 30 分配一个
  • 在函数内部调用 clusterApply 时,性能会下降

    我遇到了一个奇怪的问题clusterApply 我已经能够尽可能地隔离它 如下所示 首先 我从全局环境运行以下代码 require parallel cl lt makeCluster rep localhost 20 SOCK xl lt
  • 将列表中的列转换为 R 中的数据框

    我有使用 R 创建的以下列表 set seed 326581 X1 rnorm 10 0 1 Y1 rnorm 10 0 2 data data frame X1 Y1 lst lt replicate 100 df smpl lt dat
  • dplyr,do(),从模型中提取参数而不丢失分组变量

    R 帮助中关于 do 的示例略有不同 by cyl lt group by mtcars cyl models lt by cyl gt do mod lm mpg disp data coefficients lt models gt d
  • 如何在 R 中为传单中的数值变量设置不对称颜色渐变

    我想让传单调色板以零为中心 红白绿发散 我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时 我得
  • 在 R 中绘制对数正态概率密度

    我正在尝试在 R 中生成对数正态概率密度图 其中包含 3 个不同的均值对数和标准差对数 我尝试了以下方法 但我的图表太丑了 看起来一点也不好看 x lt seq 0 10 length 100 a lt dlnorm x meanlog 0
  • 将 sf voronoi 多边形裁剪到边界框时出错

    我正在尝试将 voronoi polygons 使用 sf package 创建 剪辑 到边界框 但它引发了我无法定义的错误 我对 R 的空间世界不太有经验 感谢所有帮助 样本数据 stations lt structure list ST
  • 如何更改 Shiny 中 navbarPage 折叠的断点

    我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时 将导航元素折叠到菜单中 默认情况下 当浏览器宽度小于 940 像素时会触发折叠 有什么方法可以改变这一点 以便在稍大的浏
  • 仅保留百分比的尾随零

    给出以下示例 library pander tableAbs lt Titanic 1 1 tablePct lt round prop table tableAbs 100 2 table lt cbind tableAbs tableP
  • 如何按 data.table 中的十分位数组计算统计数据

    我有一个 data table 想按组计算统计数据 R set seed 1 R DT data table a rnorm 100 b rnorm 100 这些组应该定义为 R quantile DT a probs seq 1 9 1
  • fread 将空导入为 NA

    我正在尝试导入带有空白的 csv 读取为 不幸的是他们都读作 NA now 为了更好地演示问题 我还展示了如何NA NA and 都映射到同一事物 除了最底部的示例 这将妨碍简单的解决方法dt is na dt lt gt write cs
  • 如何将此“for”循环转换为向量解

    这个问题与 将嵌入其他文本的长州名称转换为两个字母的州缩写 https stackoverflow com questions 25582518 convert long state names embedded with other te
  • R:将 JSON 时间格式转换为 POSIX

    我有一个 JSON 字符串 并将其放入数据框中 我能够做到这一点 但我在使用 apply 函数之一将所有时间字符串转换为 POSIX 格式时遇到问题 See here https stackoverflow com questions 90
  • 具有 dplyr、tidyverse 和 broom 的相关矩阵 - P 值矩阵

    全部 我想使用以下方法从相关矩阵中获取 p 值dplyr 和 或扫帚包 并同时测试多个变量 我知道其他方法 但 dplyr 对我来说似乎更简单 更直观 此外 dplyr 需要关联每个变量以获得特定的 p 值 这使得该过程更容易 更快 我检查

随机推荐

  • Angular 5 ng build --prod 装饰器中不支持函数表达式

    我正在尝试构建我的项目 当我只是在本地运行它时 该项目运行良好ng serve but on ng b prod我得到 ERROR in app logged in content routing routing component ts
  • React.js:将参数传递给事件处理程序的最有效方法,无需在组件中使用bind()

    当事件处理程序使用this 就像handleClick下面使用this setState 你必须绑定事件处理程序this关键词 否则 您需要使用箭头函数 e g This function isn t bound whilst using
  • 如何使用nodejs从角度获得相当于“req.something”的内容

    我正在关注有关如何使用 Node js 和护照设置身份验证的教程 http scotch io tutorials javascript easy node authentication setup and local 本教程让我使用 ej
  • gdb 中的下一个命令无法正常工作

    我只是使用 gdb 逐行浏览代码 以了解它是如何工作的以及它在做什么 我第一次执行此操作时效果很好 但现在下一个命令无法正常工作 有时它前进 有时它倒退 这没有道理 每次我这样做时 似乎都是相同的模式 下面是一个例子 有人知道出了什么问题吗
  • Android NDK:尝试移植 JnetPcap

    我发现了一个Android流量监控应用程序 Shark 它基于 JnetPcap 并且有一个包含所有源文件和相应的文件Android mk files 我将 jni 目录放在 Android NDK 的示例文件中 并尝试使用ndk buil
  • 可以在构造函数外部赋值的只读字段

    有没有办法在类中拥有一个私有只读字段 可以在类中的任何位置赋值 但只能赋值一次 也就是说 我正在寻找一种私有只读类型的字段 它只能被赋值一次 但不一定在构造函数内 因此 如果将一个值重新分配给一个字段 那么它会显示编译时错误 我确信这要求太
  • 从 JOOQ 解析器结果中获取表/列元数据

    使用 JOOQ 解析器 API 我能够解析以下查询并从结果查询对象中获取参数映射 由此 我可以看出有一个参数 它的名字是 something 但是 我无法弄清楚如何确定参数 something 已分配给名为 BAZ 的列 并且该列是表 BA
  • 即时生成自签名证书

    我四处搜寻 但没有找到明确的例子 我想以编程方式创建一个自签名 自 信任的证书 C 按照以下步骤操作 STEP 1 即时创建根 CA 证书并将其添加到 受信任的根证书颁发机构 文件夹中的证书存储中 我想做的正是这个命令行工具所做的事情 ma
  • 无法从shinyapps.io连接到Microsoft Azure

    我构建了一个从 Microsoft Azure 提取数据的 Rshiny 应用程序 当我在连接字符串中使用 SQL Server 驱动程序时 我的应用程序可以在本地运行 但当我在shinyapps io 上发布应用程序时 我的应用程序无法运
  • Angular 2 中的兄弟事件通信

    我当时的项目中有五个组件 它们是 1 AppComponent Main component 2 AuthComponent 3 HomeComponent 4 HeaderComponent 5 FooterComponent AppCo
  • 当内容高度 > 2000px 时,WP7 ScrollViewer 错误

    在我的项目中 我使用ScrollViewer显示一些长的高度信息 我这样使用
  • 以编程方式将内容添加到 TreeViewItem

    我正在尝试创建一个新的 TreeViewItem 其中包含一个控件 如下所示
  • 倒计时器?

    如何制作倒计时器 当用户加载页面时 时钟开始倒计时 到达时间后 它将浏览器重定向到新页面 找到这个了 不太好用 http encosia com 2007 07 25 display data updates in real time wi
  • FFMPEG iOS 7 库

    我尝试阅读很多教程 我花了几个小时在谷歌和 stackoverflow 上尝试回答 到目前为止我读过 尝试使用armv6和arv7架构为iPhoneOS平台编译FFMPEG库 FFMPEG 在 iphone ipad 项目上的集成 and
  • 使用 LESS 递归函数和媒体查询生成样式

    我正在尝试生成一些相对于屏幕高度的内容 并决定尝试使用 LESS 来生成类似的内容 即使作为测试有点重 baseHeight 1px setRelativeHeight screenHeight minHeightDiff maxHeigh
  • 重绘未按要求正常运行

    我制作了一个俄罗斯方块游戏 现在我已经使用 JPanel 来显示内容和块 使用 PaintComponents 方法 问题是每当我尝试从另一个 JFrame 调用俄罗斯方块程序时 它根本不绘制 我的俄罗斯方块主菜单的代码是 import j
  • 源更改时 VBA 刷新用户窗体列表框数据

    您好 我的用户表单中的列表框数据遇到问题 当我尝试更改列表框连接的源文件时 它似乎没有改变 一开始它显示了良好的数据 但是当我尝试单击 运行日期 按钮时 它与我的范围内的值不匹配 该值被设置为我的排序键 这是我用于按升序和降序排序的运行日期
  • 有没有办法在 Program.exe.manifest 的 UMMM(无人值守制作我的清单)创建中指定 File Name= ?

    有没有办法调整 UMMM ini 文件和 或 UMMM bat 文件以在
  • 为什么显示内联块与文本高度匹配?

    我有一个锚标记 并且我正在使用 before 选择器添加一些文本 我在锚标记周围添加了悬停状态 这 before文本比锚标记中的其余文本稍大 我添加了一个display inline block属性为之前的文本 当我将鼠标悬停在锚标记上时
  • 根据词典数据框替换语料库中的单词

    我有兴趣替换 a 中的所有单词tm根据由两列数据框组成的字典的语料库对象 其中第一列是要匹配的单词 第二列是替换单词 我被困住了translate功能 我看见这个答案但我无法将其转换为要传递给的函数tm map 请考虑以下 MWE libr