如何使用 tm 创建 *.docx 文件的语料库?

2023-12-05

我有 MS Word 文档的混合文件类型集合。有些文件是 *.doc,有些是 *.docx。我正在学习使用tm我(或多或少*)成功创建了一个由 *.doc 文件组成的语料库:

ex_eng <- Corpus(DirSource('~/R/expertise/corpus/english'), 
                 readerControl=list(reader=readDOC, 
                                    language='en_CA',
                                    load=TRUE));

此命令不处理 *.docx 文件。我想我需要一个不同的读者。从本文,我知道我可以编写自己的(鉴于我目前没有的 .docx 格式的良好理解)。

readDOC 阅读器使用antiword解析 *.doc 文件。是否有类似的应用程序可以解析 *.docx 文件?

或者更好的是,是否已经有一种使用 tm 创建 *.docx 文件语料库的标准方法?


* 或多或少,因为虽然文件进入并且可读,但我对每个文档都收到此警告:In readLines(y, encoding = x$Encoding) : incomplete final line found on 'path/to/a/file.doc'


.docx文件是压缩的 XML 文件。如果你执行这个:

> uzfil <- unzip(file.choose())

然后选择一个.docx文件放在你的目录中,你会得到:

> str(uzfil)
 chr [1:13] "./[Content_Types].xml" "./_rels/.rels" "./word/_rels/document.xml.rels" ...
> uzfil
 [1] "./[Content_Types].xml"          "./_rels/.rels"                  "./word/_rels/document.xml.rels"
 [4] "./word/document.xml"            "./word/theme/theme1.xml"        "./docProps/thumbnail.jpeg"     
 [7] "./word/settings.xml"            "./word/webSettings.xml"         "./word/styles.xml"             
[10] "./docProps/core.xml"            "./word/numbering.xml"           "./word/fontTable.xml"          
[13] "./docProps/app.xml"       

这也会以静默方式将所有这些文件解压到您的工作目录中。这"./word/document.xml"文件包含您要查找的单词,因此您可以使用 XML 包中的 XML 工具之一来读取它们。我猜你会做一些类似的事情:

 library(XML)
 xtext <-  xmlTreeParse(unz(uzfil[4]), useInternalNodes = TRUE) )

实际上,您可能需要将其保存到临时目录并将该路径添加到文件名“./word/document.xml”。

您可能想使用@GaborGrothendieck 在此答案中提供的进一步步骤:如何使用 R 从 CrossRef 中提取 xml 数据?

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 tm 创建 *.docx 文件的语料库? 的相关文章

  • R foreach问题(某些进程返回NULL)

    我遇到了问题foreach我正在 R 中使用的程序的一部分 该程序用于运行不同参数的模拟 然后将结果返回到单个列表 然后用于生成报告 当并非所有分配的模拟运行都在报告上实际可见时 就会出现问题 从各方面来看 似乎只有分配的运行的一个子集实际
  • 在 R 中向散点图添加线条

    如何向图表添加线条 我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
  • 使用 purrr 迭代替换数据帧列中的字符串

    我想用purrr使用以下命令在数据框列上迭代运行多个字符串替换gsub 功能 这是示例数据框 df lt data frame Year 2019 Text c rep a aa 5 rep a bb 3 rep a cc 2 gt df
  • 使用 pracma::findpeaks 识别持续峰值

    我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值 并且我相信该选项peakpat这就是我能做到的
  • 多功能测试仪替代 system.time

    我已经看到 我认为是这样 使用了类似于 system time 的函数 它可以同时评估多个函数的时间并输出一个输出 我不记得它是什么 并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应 有人知道我正在谈论的功能的名称 位置吗 你想要
  • 如何使用 R 计算成为列表中中位数的概率?

    假设我有以下数据集 其中显示了假设实验的每个状态的三个观察结果的列表 state lt c Iowa Minnesota Illinois outcome lt list c 5 11 11 c 3 12 8 c 9 14 2 dat lt
  • 通过间接引用列来修改数据框中的某些值

    我正在整理一些数据 我们将失败的数据分类到垃圾箱中 并按批次计算每个分类箱的有限产量 我有一个描述排序箱的元表 这些行按升序测试顺序排列 一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
  • Dendextend:关于如何根据定义的组为树状图的标签着色

    我正在尝试使用一个名为 dendextend 的很棒的 R 包来绘制树状图并根据一组先前定义的组为其分支和标签着色 我已阅读您在 Stack Overflow 中的答案以及 dendextend vignette 的常见问题解答 但我仍然不
  • R独特的列或行与NA无可比拟

    有谁知道如果incomparables的论证unique or duplicated 曾经被实施过incomparables FALSE 也许我不明白它应该如何工作 无论如何 我正在寻找一个巧妙的解决方案 以仅保留与另一列相同的唯一列 或行
  • 在 R 中创建虚拟变量,排除某些情况为 NA

    我的数据看起来像这样 V1 V2 A 0 B 1 C 2 D 3 E 4 F 5 G 9 我想创建一个虚拟变量R where 0 1 1 2 3 4 and NA 0 5 9 应该很简单 有人可以帮忙吗 我们可以转换V2 into a fa
  • 在 R 中使用 lapply 绘制多个数据帧

    我正在尝试使用 lapply 函数绘制多个数据帧 每个数据帧一个图 但是尽管有关此主题的所有帖子我都找不到答案 因为我不断收到错误 图的输出列表为空 我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
  • 朴素贝叶斯分类器仅基于先验概率做出决策

    我试图根据推文的情绪将推文分为三类 买入 持有 卖出 我正在使用 R 和包 e1071 我有两个数据框 一个训练集和一组需要预测情绪的新推文 训练集数据框 text sentiment this stock is a good buy Bu
  • 相当于 min() 的 rowMeans()

    我在 R 邮件列表上多次看到这个问题 但仍然找不到满意的答案 假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
  • 文本挖掘 pdf 文件/词频问题

    我正在尝试挖掘一篇具有丰富 pdf 编码和图表的文章的 pdf 我注意到 当我挖掘一些 pdf 文档时 我得到的高频词是 phi taeoe toe sigma gamma 等 它与某些 pdf 文档配合良好 但与其他文档配合使用时却得到这
  • 旋转 Markdown 的表格 pdf 输出

    我想将 pdf 上的表格输出旋转 90 度 我正在使用 Markdown 生成报告并kable循环显示表格 如果可以的话我想继续使用kable因为还有很多其他依赖于它的东西我没有包含在这个 MWE 中 这是一个简单的例子 使用iris数据集
  • 如何从 R keras 中的类似生成器的数据中评估()和预测()

    我有以下代码 数据集可以下载here https www dropbox com s qjt5o31oyqj10m8 data tar gz dl 0 or here https www kaggle com c dogs vs cats
  • 如何从 R 中的 txt 文件读取矩阵?

    我有一个带有矩阵的txt文件 Matrix txt 重要 数字之间没有空格 0100 1001 1100 我想在 R 中将其作为矩阵读取 我该怎么做 我尝试使用 as matrix read table Matrix txt sep 但失败
  • read_html(url) 和 read_html(content(GET(url), "text")) 之间的区别

    我正在看这个很棒的答案 https stackoverflow com a 58211397 3502164 https stackoverflow com a 58211397 3502164 解决方案的开头包括 library httr
  • applyStrategy 错误

    我是R新手 最近运行后遇到以下错误applyStrategy函数来自quantstrat包裹 Error in eval expr envir enclos object signal not found Error in colnames
  • 闭包作为数据合并习惯的解决方案

    我正在尝试解决闭包问题 而且我think我发现了一个案例 他们可能会有所帮助 我有以下几部分需要处理 一组正则表达式 旨在清理状态名称 位于函数中 具有州名称 上述函数创建的标准化形式 和州 ID 代码的 data frame 用于链接两者

随机推荐

  • 调用未定义函数 __() 错误 - phpMyAdmin

    当我想在浏览器上运行 phpMyAdmin 时 会显示以下错误 Fatal error Call to undefined function in usr share phpMyAdmin libraries core lib php on
  • 使用多个数据集训练神经网络 (Keras)

    我正在使用的数据集对应于各个时间序列信号 尽管每个信号代表相同的语义数据 以英里 小时为单位的速度 但每个信号都是唯一的 具有不同的数据点总数 我正在与 Keras 合作 并尝试将基本的神经网络拟合到数据中以对其进行评估 下面是它的 Pyt
  • 选择超链接内的标签问题

    我已经简化了我的页面 这里有
  • 从空手道中的 html 响应中提取 Javascript

    我这里需要帮助 我有一个 POST 请求 它返回带有 HTML 响应的响应 并且该 HTML 响应内部包含 javascript 我需要提取其中显示 checkout TransactionID 的文本 javascript 并使用空手道将
  • tweetsharp 和 api 流?

    我找不到最近的答案 据报道 许多旧帖子中的 Tweetsharp 不支持来自 Twitter 用户流 API 的流式传输 然而 github 显示了一个类 看起来它确实支持流式传输 https github com danielcrenna
  • 插入触发器后发生突变错误

    下面的代码给出了一个变异错误 任何人都可以帮助解决这个问题吗 CREATE OR REPLACE TRIGGER aso quote cuhk trigger BEFORE INSERT ON aso aso quote headers a
  • C++ 放置 new 是如何工作的?

    这个问题是为了确认我正确理解了这个概念 并就使用风格和可能的优化听取了专家的意见 我试图理解 新的安置 以下是我想出的程序 include
  • 定期更新的 bigquery 数据库中的记录顺序

    我将在 bigquery 上维护数据库的本地副本 我将使用 API 和 tabledata list 该数据库不是我自己的 维护人员通过附加新数据 例如每小时 定期更新 首先 我可以假设当附加这些数据时 它会确实被添加到数据库的末尾 现在
  • 未捕获的类型错误:$(...).autocomplete 不是一个函数

    我正在尝试实现 JQuery 自动完成文本框 我无法让我的自定义文本框正常工作 因此我尝试首先实现股票文本框 以便修复此错误 考虑到我已经包含了该页面 https jqueryui com autocomplete default 已建议
  • 如何添加MBean方法的描述以在JBOSS的jmx-console中查看它

    我正在使用 JBoss 4 3 2 GA 我已将方法添加到我的 MBean 服务中 方法的签名中有多个参数 它工作得很好 但我想要更多 问题 当我在 jmx console 中看到方法签名时 我不知道每个输入字段的含义 因为 jmx con
  • STI,一个控制器

    我是 Rails 新手 我有点陷入这个设计问题 这可能很容易解决 但我没有得到任何结果 我有两种不同类型的广告 亮点广告和特价广告 它们都具有相同的属性 标题 描述和一张图像 带有回形针 它们还可以应用相同类型的操作 索引 新建 编辑 创建
  • 对于 Android 应用程序,如何按降序排列 SQLITE 数据库?

    按降序显示数据的最有效方法是什么 public String getRank String rank new String KEY ROWID Cursor c scoreDb query DATABASE TABLE rank null
  • mongosh 是有效命令,但未找到 mongo

    我安装了 mongodb 社区 6 0 0 命令mongo没有找到 命令mongosh工作中 mongosh version 1 5 4 根据官方文件 The mongoMongoDB v5 0 中已弃用 shell 替代品是mongosh
  • 在 C++ 中实现 is_same_type 类型特征的程序

    你好 谁能给出一个示例程序来实现 c 中的 is same type 类型特征吗 include
  • 我的服务器程序接收到的字节不完整。为什么?我正在使用 C# .net 套接字

    这种情况并不总是发生 但这种情况比完全接收字节更常见 这是我的客户端程序向我的服务器程序发送字节的方式 public void sendBytes FileStream fs new FileStream filename FileMode
  • Bouncycastle 以编程方式安装提供程序

    是否可以在不修改安全策略文件的情况下以编程方式安装 Bouncycastle 提供程序 sure java security Security addProvider new BouncyCastleProvider
  • Qt 无法创建/写入 C:\

    我正在编写一个 Qt 程序 最初适用于 Windows 7 4 7 需要写入安装目录 C Program Files 当我尝试写入 受保护 的位置 程序文件 C 等 时 没有创建任何文件 但是 QFile 没有给我任何错误代码 error
  • composer.json 无法解析可安装的包集

    我无法安装stof doctrine extensions bundle和我的作曲家 我使用的是Symfony2 1 9版本 显示了很多问题 第一个是 找不到请求的包 stof doctrine extensions bundle 1 1
  • forRoot() 模块方法的参数如何传递给提供者?

    我发现了模块的 forRoot 方法的一些示例 如下所示 export class CoreModule constructor Optional SkipSelf parentModule CoreModule if parentModu
  • 如何使用 tm 创建 *.docx 文件的语料库?

    我有 MS Word 文档的混合文件类型集合 有些文件是 doc 有些是 docx 我正在学习使用tm我 或多或少 成功创建了一个由 doc 文件组成的语料库 ex eng lt Corpus DirSource R expertise c