在 R tm 包中,从 Document-Term-Matrix 构建语料库

2023-12-09

使用 tm 包从语料库构建文档术语矩阵非常简单。 我想从文档术语矩阵构建一个语料库。

令 M 为文档集中的文档数。 令 V 为该文档集词汇表中的术语数量。那么文档术语矩阵就是 M*V 矩阵。

我还有一个长度为 V 的词汇向量。词汇向量中是由文档术语矩阵中的索引表示的单词。

我想从 dtm 和词汇向量构建一个“语料库”对象。这是因为我想阻止我的文档集。我手动构建了 dtm 和 vocab - 即从来没有 tm“语料库”对象代表我的数据集,所以我无法使用该函数,

tm_map(corpus, stemDocument, language="english")

我一直在尝试构建一种解决方法,在其中限制词汇表并仅保留唯一的单词,但是尝试维护 dtm 和词汇向量之间的对应关系会变得有些复杂。

理想情况下,最终结果是我的词汇向量经过词干处理并且仅包含唯一条目,并且 dtm 索引对应于词干词汇向量。如果您能想到其他方法来做到这一点,我也将不胜感激。

如果我可以简单地从我的 dtm 和词汇向量构建一个 tm“语料库”,提取语料库,然后转换回 dtm 和词汇向量(我已经知道如何进行这些转换),那么我的麻烦就可以解决。

如果我可以进一步澄清问题,请告诉我。


这是我自己提供的方法最小可重复示例(作为新用户,您可能不知道这是您的责任)tm包裹:

## Minimal Reproducible Example
library(tm)
data("crude")
dtm <- DocumentTermMatrix(crude,
    control = list(weighting =
    function(x)
        weightTfIdf(x, normalize = FALSE),
        stopwords = TRUE))

## Convert tdm to a list of text
dtm2list <- apply(dtm, 1, function(x) {
    paste(rep(names(x), x), collapse=" ")
})

## convert to a Corpus
myCorp <- VCorpus(VectorSource(dtm2list))
inspect(myCorp)

## Stemming
myCorp <- tm_map(myCorp, stemDocument)
inspect(myCorp)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 R tm 包中,从 Document-Term-Matrix 构建语料库 的相关文章

  • 无法更改 RStudio 中的 R 版本

    我的 RStudio V 0 99 491 无法更改 R 版本 我以平常的方式行事Global Options gt R Version 然后它挂起并且不再工作或反应 R 运行良好的初始版本是R 3 1 0 我以前从未遇到过这样的问题 也许
  • 在 ifelse() 语句内部和外部运行一行时的不同输出

    我正在尝试运行一个简单的命令 但不知道为什么在内部和外部运行它时输出不同ifelse 功能 函数条件评估为FALSE 所以输出应该完全相同 但是 单独运行时 输出为0 0 1 1 0 1 0 1 NA 根据需要 但是从ifelse 函数 输
  • 麦当劳 omega:R 中的警告

    我正在计算几种不同尺度的欧米茄 并在 R 中使用不同的 omega 函数获取不同比例的不同警告消息 我的问题是如何解释这些警告以及报告检索到的 omega 统计数据是否安全 当我使用 从 alpha 到 omega 内部一致性估计普遍问题的
  • 在 Shiny 中的用户会话之间共享反应数据集

    我有一个相当大的反应数据集 该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的 数据更新频繁 需要不断重新加载 诚然 重新加载可以增量完成并附加到 R 中的现有对象 但事实并非如此 然而目前 尽管会话中的数据相同 但此操作是针对
  • 闪亮应用程序中的本地图像没有 img(src())?

    我想按照以下说明在我的闪亮应用程序中包含本地图像文件 在闪亮的应用程序中嵌入图像 https stackoverflow com questions 21996887 embedding image in shiny app 然而 由于某种
  • 数据帧初始化 - 字符初始化读取为因素?

    我正在尝试初始化这样的数据框 因为我想要一个空数据框 其中两个字符向量作为列 out frame lt data frame Hospital character State character 但是 当我查看该数据框的每一列的类时 它显示
  • 使用 geom_tile() 的 R ggplot 热图:如何按年份排序并在 y 轴上显示所有年份?

    在研究了哈德利的书并在这里搜索后 我创建了一个由年和月矩阵组成的热图 颜色根据时间序列变量的百分比变化而变化 热图和我用来获取它的代码如下所示 我还有一些我自己无法解决的问题 1 如何对矩阵进行排序 排序 以便 y 轴中的年份从最早到最晚
  • 以给定的纵横比保存绘图

    我正在使用非常棒的库 ggplot2 我想出了如何使用设置绘图的纵横比coord fixed 现在 我想将绘图保存为具有指定宽度 例如 10 厘米 的 PDF 并计算所需的高度 我不知道如何实现这一目标 这可能吗 您可以使用网格函数来计算
  • R:如何应用输出多列数据帧的函数(使用 dplyr)?

    我想查找数据框中某一特定列与所有其他列之间的相关性 p 值和 95 CI broom 包提供了一个示例 说明如何使用带有 dplyr 和管道的 cor test 在两列之间执行此操作 对于 mtcars 和 mpg 列 我们可以与另一列进行
  • 将数字提高到非整数幂时出现奇怪的 NaN [重复]

    这个问题在这里已经有答案了 我执行了以下代码 tau lt 0 25 h lt 0 6 n 1 5 4 5 dnorm qnorm tau 4 qnorm tau 2 qnorm tau 2 1 2 1 5 R 继续生产NaN 然而 R 实
  • 如何处理“不符合”的数组?

    如何对两个数组进行逐元素算术运算 在第一维度中一致 但也有一个额外的维度 示例 乘法数组a 3 x 3 x 2 按数组b 3 x 3 a lt array 1 18 dim c 3 3 2 b lt diag 3 由于数组不一致 因此以下操
  • dplyr / left_join 中的嵌套管链

    在尝试获取分组滞后变量的过程中 仅使用这是不可能的 lag 建议的解决方案是将数据拉出 滞后不同的行 然后重新加入它 我更喜欢在不创建中间对象的情况下执行此操作 并且希望在链中间执行此操作 然而 它似乎没有像我预期的那样工作 问题似乎是使用
  • grep() 搜索数据框的列名

    有没有更清晰 更简单 更直接 更短的方法来做到这一点 其中 df1 是数据框 names df1 grep Yield names df1 我想返回任何包含单词 yield 的列名称 Thanks grep has a value应该适用于
  • 有没有办法在 RStudio 中调试 RScript 调用?

    假设我从命令行运行 R 脚本 如下所示 Rscript prog R x y z 我想检查某一行的代码 目前 我无法在 RStudio 中以交互方式调试它 因为我不知道如何传递参数 由于它设计为从命令行运行 因此如何通过命令行 RStudi
  • 将密度曲线拟合到 R 中的直方图

    R中有没有可以将曲线拟合到直方图的函数 假设您有以下直方图 hist c rep 65 times 5 rep 25 times 5 rep 35 times 10 rep 45 times 4 看上去很正常 但其实是歪曲的 我想拟合一条倾
  • 使用 R 的 flextable 包时,有没有办法将传递给 add_header_lines() 的字符串部分加粗

    我正在使用我喜欢的 flextable 包为 Word 文档创建几个表格 但是 我在将表格标题中的部分文本加粗时遇到了一些麻烦 例如 我希望标题为 Table 1 我的表格标题的其余部分 而不是 表 1 我的表格标题的其余部分 I 找到这个
  • 查找数据帧列表中同一列中的所有重复值并将其转换为 NULL

    我有一个清单BELGIAN COAST list包含数百个数据帧 df1 df2 15 列 X 1000 行 每个数据帧的最后一列称为Chemicals并包含一些字符 例如Sulfate or Ammonia 但是这一列有很多行Chemic
  • 使用 dplyr:group_by 将数据帧分成多个子集?

    有没有办法根据 group by 组使用 dplyr 将一个数据帧拆分为数据帧的子集 mtcars gt group by cyl gear gt codes 非常感谢 好吧 并不是你真的想要 但你可以这样做tidyr 即nearly一样的
  • 如何在 R 中为传单中的数值变量设置不对称颜色渐变

    我想让传单调色板以零为中心 红白绿发散 我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时 我得
  • R 编程:如何计算数据框中两个单元格之间的差异并将它们保存在新列中

    尝试学习 R 并陷入自相关示例中 我想将 x 的差异与 y 的差异进行回归 我在数据框中有 x 和 y 并且希望将 x2 x1 的差值保存在新列 例如 dx 中 我不知道该怎么做 我拥有的 data1 x y 5 3 8 9 3 1 1 5

随机推荐

  • ORA-00936 缺少表达式

    当用户投票时 我需要更新我的表列 votecount 但我遇到此错误 我不知道该怎么办 private void Vote string VoteId OracleCommand cmd new OracleCommand UPDATE A
  • project.cabal 文件的 build-depends 中的“stack install NAME”和“NAME”有什么区别?

    添加和添加有什么区别package name在下面build depends 项目中的部分 cabal file 与做stack install package name在该项目的目录中 stack install只会将包安装到适当的位置
  • 将格式化的 Excel 范围粘贴到 Outlook 邮件中

    我想将一系列格式化的 Excel 单元格粘贴到 Outlook 邮件中 以下代码 我从各种来源获取 运行时没有错误并发送一条空消息 Sub SendMessage SubjectText As String Importance As Ol
  • 当依赖属性发生更改时是否有通知机制?

    在 Silverlight 应用程序中 我试图找出用户控件上的属性何时发生更改 我对一个特定的 DependencyProperty 感兴趣 但不幸的是该控件本身没有实现 INotifyPropertyChanged 还有其他方法可以确定值
  • 如何在neo4j中按时间戳过滤边缘?

    我有一个以下形式的图表 产品 产品 in stock 更新 时间戳 gt stock items StockItem 数量 q stored at gt 位置 位置 显然更重要的是 但你明白了要点 stock item 节点和 in sto
  • UITabBarController 的“更多”导航控制器在 UINavigationController 下消失

    我在我的应用程序上使用 UITabBarController 和 UINavigationController 在我的 UITabBarController 中 我使用了超过 5 个项目 因此我会自动获取 更多 项目 我已经设法添加一个保存
  • .net cf TextBox 在焦点上显示键盘

    我的 UI 上有一些文本框 我想在控件获得焦点时显示移动键盘 然后消失 注意 对于这个特定的程序 它是一个高屏幕 并且设备上没有物理键盘 将 InputPanel 添加到表单中 连接 TextBox 的 GotFocus 和 LostFoc
  • 将 LINQ to Entity Framework 与 DB2 结合使用

    是否有 IBM 驱动程序 以便我们可以使用 Linq to Entity 框架连接到 DB2 并在 desinger edmx 文件上生成 DB2 实体 任何链接将不胜感激 7已经出来了您可以在PC上安装DB2 9 7客户端来连接任何DB2
  • 抛出另一个异常:FormatException: Invalid number (at character 1)

    为什么会出现错误Another exception was thrown FormatException Invalid number at character 1 在一切恢复正常之前 我的屏幕上会出现几微秒 有时甚至不会发生 下面是我的
  • 尝试通过 jQuery ajax 调用加载 Google 图表

    最初发布在这里 尝试通过 jQuery ajax 调用加载 Google 图表但对我的代码进行了一些修改 但我仍然无法让它正常工作 我正在尝试编写一个轮询函数来加载结果并将其显示在同一页面中而不刷新 我正在使用谷歌图表 api 和 jque
  • 在 VB.Net 中等待变量改变状态的更好方法

    我有一个循环遍历多个值 迭代每个值时 都会将页面加载到 Web 浏览器控件中 将值作为参数传递 并且当加载和读取页面时 循环应转到列表中的下一个值并继续 直到处理完所有值 我需要一种方法来在网站异步加载时暂停该过程 然后在页面加载 读取过程
  • Google Sheet:onChange 事件触发时如何获取实际更改?

    the doc不是很有帮助 不像onEdit onChange事件没有包含所做更改的属性 我怎样才能得到它 function onChange e console log e 该事件对象中没有任何有用的信息 我无法使用 onEdit 的原因
  • 如何在d3js中制作分组堆积条形图?

    我有以下 d3 图表 它已分组 并且每个分组都包含一个堆积条形图 但不知何故 我觉得这不是一个正确的实施方式 而且有点复杂 如果只有堆积条形图 我会使用d3 stack 有人可以让我知道有没有更好的方法来做到这一点 片段如下 var dat
  • git 变基基础知识

    我已经开始使用git rebase最近 我不能 100 确定我做得对 为了问题起见 起源有两个分支 master and next 它是从master 自从两者上次同步以来 master有 2 次提交并且next 6 git log one
  • 在vhdl中生成随机整数

    我需要在 vhdl 中生成 0 1023 之间的随机整数 但是我在互联网上找不到这方面的好资源 请问有人帮我吗 下面是生成范围 0 1023 内均匀 均匀 分布的整数的示例 请注意 floor必须在与最大值 1 相乘之后使用运算 在本例中为
  • 在asp.net中隐藏gridView行

    我正在创建一个gridView允许通过添加插入所需的控件来添加新行FooterTemplate 但是当ObjectDataSource没有记录 我添加一个虚拟行作为FooterTemplate仅当有数据时才显示 我怎样才能隐藏这个虚拟行 我
  • XML 数据提取,其中并非所有父节点都包含子节点

    我有一个 xml 数据文件 其中用户已开设帐户 但在某些情况下该帐户已被终止 数据没有列出帐户未终止时的值 这使得提取信息非常困难 以下是可重现的示例 其中只有用户 1 和 3 的帐户被终止 library XML my xml lt xm
  • 如何在 Activity 启动时滚动到 ScrollView 的底部

    我正在 ScrollView 中显示一些数据 在活动启动时 方法 onCreate 我用数据填充 ScrollView 并希望滚动到底部 我尝试使用getScrollView fullScroll ScrollView FOCUS DOWN
  • apache2 中的初始化模块

    我曾经在apache 1 3中编写apache模块 但这些天我愿意传递到apache2 出于性能目的 我现在正在编写的模块有自己的二进制数据 而不是数据库 我需要将这些数据加载到共享内存中 这样每个孩子都可以访问它 而无需制作自己的副本 并
  • 在 R tm 包中,从 Document-Term-Matrix 构建语料库

    使用 tm 包从语料库构建文档术语矩阵非常简单 我想从文档术语矩阵构建一个语料库 令 M 为文档集中的文档数 令 V 为该文档集词汇表中的术语数量 那么文档术语矩阵就是 M V 矩阵 我还有一个长度为 V 的词汇向量 词汇向量中是由文档术语