如何使用 tm 创建 *.docx 文件的语料库？

2023-12-05

我有 MS Word 文档的混合文件类型集合。有些文件是 *.doc，有些是 *.docx。我正在学习使用tm我（或多或少*）成功创建了一个由 *.doc 文件组成的语料库：

ex_eng <- Corpus(DirSource('~/R/expertise/corpus/english'), 
                 readerControl=list(reader=readDOC, 
                                    language='en_CA',
                                    load=TRUE));

此命令不处理 *.docx 文件。我想我需要一个不同的读者。从本文，我知道我可以编写自己的（鉴于我目前没有的 .docx 格式的良好理解）。

readDOC 阅读器使用antiword解析 *.doc 文件。是否有类似的应用程序可以解析 *.docx 文件？

或者更好的是，是否已经有一种使用 tm 创建 *.docx 文件语料库的标准方法？

* 或多或少，因为虽然文件进入并且可读，但我对每个文档都收到此警告：In readLines(y, encoding = x$Encoding) : incomplete final line found on 'path/to/a/file.doc'

.docx文件是压缩的 XML 文件。如果你执行这个：

> uzfil <- unzip(file.choose())

然后选择一个.docx文件放在你的目录中，你会得到：

> str(uzfil)
 chr [1:13] "./[Content_Types].xml" "./_rels/.rels" "./word/_rels/document.xml.rels" ...
> uzfil
 [1] "./[Content_Types].xml"          "./_rels/.rels"                  "./word/_rels/document.xml.rels"
 [4] "./word/document.xml"            "./word/theme/theme1.xml"        "./docProps/thumbnail.jpeg"     
 [7] "./word/settings.xml"            "./word/webSettings.xml"         "./word/styles.xml"             
[10] "./docProps/core.xml"            "./word/numbering.xml"           "./word/fontTable.xml"          
[13] "./docProps/app.xml"

这也会以静默方式将所有这些文件解压到您的工作目录中。这"./word/document.xml"文件包含您要查找的单词，因此您可以使用 XML 包中的 XML 工具之一来读取它们。我猜你会做一些类似的事情：

 library(XML)
 xtext <-  xmlTreeParse(unz(uzfil[4]), useInternalNodes = TRUE) )

实际上，您可能需要将其保存到临时目录并将该路径添加到文件名“./word/document.xml”。

您可能想使用@GaborGrothendieck 在此答案中提供的进一步步骤：如何使用 R 从 CrossRef 中提取 xml 数据？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

docx

tm

如何使用 tm 创建 *.docx 文件的语料库？的相关文章

R foreach问题（某些进程返回NULL）

我遇到了问题foreach我正在 R 中使用的程序的一部分该程序用于运行不同参数的模拟然后将结果返回到单个列表然后用于生成报告当并非所有分配的模拟运行都在报告上实际可见时就会出现问题从各方面来看似乎只有分配的运行的一个子集实际
在 R 中向散点图添加线条

如何向图表添加线条我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
使用 purrr 迭代替换数据帧列中的字符串

我想用purrr使用以下命令在数据框列上迭代运行多个字符串替换gsub 功能这是示例数据框 df lt data frame Year 2019 Text c rep a aa 5 rep a bb 3 rep a cc 2 gt df
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
多功能测试仪替代 system.time

我已经看到我认为是这样使用了类似于 system time 的函数它可以同时评估多个函数的时间并输出一个输出我不记得它是什么并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应有人知道我正在谈论的功能的名称位置吗你想要
如何使用 R 计算成为列表中中位数的概率？

假设我有以下数据集其中显示了假设实验的每个状态的三个观察结果的列表 state lt c Iowa Minnesota Illinois outcome lt list c 5 11 11 c 3 12 8 c 9 14 2 dat lt
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
Dendextend：关于如何根据定义的组为树状图的标签着色

我正在尝试使用一个名为 dendextend 的很棒的 R 包来绘制树状图并根据一组先前定义的组为其分支和标签着色我已阅读您在 Stack Overflow 中的答案以及 dendextend vignette 的常见问题解答但我仍然不
R独特的列或行与NA无可比拟

有谁知道如果incomparables的论证unique or duplicated 曾经被实施过incomparables FALSE 也许我不明白它应该如何工作无论如何我正在寻找一个巧妙的解决方案以仅保留与另一列相同的唯一列或行
在 R 中创建虚拟变量，排除某些情况为 NA

我的数据看起来像这样 V1 V2 A 0 B 1 C 2 D 3 E 4 F 5 G 9 我想创建一个虚拟变量R where 0 1 1 2 3 4 and NA 0 5 9 应该很简单有人可以帮忙吗我们可以转换V2 into a fa
在 R 中使用 lapply 绘制多个数据帧

我正在尝试使用 lapply 函数绘制多个数据帧每个数据帧一个图但是尽管有关此主题的所有帖子我都找不到答案因为我不断收到错误图的输出列表为空我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
文本挖掘 pdf 文件/词频问题

我正在尝试挖掘一篇具有丰富 pdf 编码和图表的文章的 pdf 我注意到当我挖掘一些 pdf 文档时我得到的高频词是 phi taeoe toe sigma gamma 等它与某些 pdf 文档配合良好但与其他文档配合使用时却得到这
旋转 Markdown 的表格 pdf 输出

我想将 pdf 上的表格输出旋转 90 度我正在使用 Markdown 生成报告并kable循环显示表格如果可以的话我想继续使用kable因为还有很多其他依赖于它的东西我没有包含在这个 MWE 中这是一个简单的例子使用iris数据集
如何从 R keras 中的类似生成器的数据中评估（）和预测（）

我有以下代码数据集可以下载here https www dropbox com s qjt5o31oyqj10m8 data tar gz dl 0 or here https www kaggle com c dogs vs cats
如何从 R 中的 txt 文件读取矩阵？

我有一个带有矩阵的txt文件 Matrix txt 重要数字之间没有空格 0100 1001 1100 我想在 R 中将其作为矩阵读取我该怎么做我尝试使用 as matrix read table Matrix txt sep 但失败
read_html(url) 和 read_html(content(GET(url), "text")) 之间的区别

我正在看这个很棒的答案 https stackoverflow com a 58211397 3502164 https stackoverflow com a 58211397 3502164 解决方案的开头包括 library httr
applyStrategy 错误

我是R新手最近运行后遇到以下错误applyStrategy函数来自quantstrat包裹 Error in eval expr envir enclos object signal not found Error in colnames
闭包作为数据合并习惯的解决方案

我正在尝试解决闭包问题而且我think我发现了一个案例他们可能会有所帮助我有以下几部分需要处理一组正则表达式旨在清理状态名称位于函数中具有州名称上述函数创建的标准化形式和州 ID 代码的 data frame 用于链接两者

随机推荐

调用未定义函数 __() 错误 - phpMyAdmin

当我想在浏览器上运行 phpMyAdmin 时会显示以下错误 Fatal error Call to undefined function in usr share phpMyAdmin libraries core lib php on
使用多个数据集训练神经网络 (Keras)

我正在使用的数据集对应于各个时间序列信号尽管每个信号代表相同的语义数据以英里小时为单位的速度但每个信号都是唯一的具有不同的数据点总数我正在与 Keras 合作并尝试将基本的神经网络拟合到数据中以对其进行评估下面是它的 Pyt
选择超链接内的标签问题

我已经简化了我的页面这里有
从空手道中的 html 响应中提取 Javascript

我这里需要帮助我有一个 POST 请求它返回带有 HTML 响应的响应并且该 HTML 响应内部包含 javascript 我需要提取其中显示 checkout TransactionID 的文本 javascript 并使用空手道将
tweetsharp 和 api 流？

我找不到最近的答案据报道许多旧帖子中的 Tweetsharp 不支持来自 Twitter 用户流 API 的流式传输然而 github 显示了一个类看起来它确实支持流式传输 https github com danielcrenna
插入触发器后发生突变错误

下面的代码给出了一个变异错误任何人都可以帮助解决这个问题吗 CREATE OR REPLACE TRIGGER aso quote cuhk trigger BEFORE INSERT ON aso aso quote headers a
C++ 放置 new 是如何工作的？

这个问题是为了确认我正确理解了这个概念并就使用风格和可能的优化听取了专家的意见我试图理解新的安置以下是我想出的程序 include
定期更新的 bigquery 数据库中的记录顺序

我将在 bigquery 上维护数据库的本地副本我将使用 API 和 tabledata list 该数据库不是我自己的维护人员通过附加新数据例如每小时定期更新首先我可以假设当附加这些数据时它会确实被添加到数据库的末尾现在
未捕获的类型错误：$(...).autocomplete 不是一个函数

我正在尝试实现 JQuery 自动完成文本框我无法让我的自定义文本框正常工作因此我尝试首先实现股票文本框以便修复此错误考虑到我已经包含了该页面 https jqueryui com autocomplete default 已建议
如何添加MBean方法的描述以在JBOSS的jmx-console中查看它

我正在使用 JBoss 4 3 2 GA 我已将方法添加到我的 MBean 服务中方法的签名中有多个参数它工作得很好但我想要更多问题当我在 jmx console 中看到方法签名时我不知道每个输入字段的含义因为 jmx con
STI，一个控制器

我是 Rails 新手我有点陷入这个设计问题这可能很容易解决但我没有得到任何结果我有两种不同类型的广告亮点广告和特价广告它们都具有相同的属性标题描述和一张图像带有回形针它们还可以应用相同类型的操作索引新建编辑创建
对于 Android 应用程序，如何按降序排列 SQLITE 数据库？

按降序显示数据的最有效方法是什么 public String getRank String rank new String KEY ROWID Cursor c scoreDb query DATABASE TABLE rank null
mongosh 是有效命令，但未找到 mongo

我安装了 mongodb 社区 6 0 0 命令mongo没有找到命令mongosh工作中 mongosh version 1 5 4 根据官方文件 The mongoMongoDB v5 0 中已弃用 shell 替代品是mongosh
在 C++ 中实现 is_same_type 类型特征的程序

你好谁能给出一个示例程序来实现 c 中的 is same type 类型特征吗 include
我的服务器程序接收到的字节不完整。为什么？我正在使用 C# .net 套接字

这种情况并不总是发生但这种情况比完全接收字节更常见这是我的客户端程序向我的服务器程序发送字节的方式 public void sendBytes FileStream fs new FileStream filename FileMode
Bouncycastle 以编程方式安装提供程序

是否可以在不修改安全策略文件的情况下以编程方式安装 Bouncycastle 提供程序 sure java security Security addProvider new BouncyCastleProvider
Qt 无法创建/写入 C:\

我正在编写一个 Qt 程序最初适用于 Windows 7 4 7 需要写入安装目录 C Program Files 当我尝试写入受保护的位置程序文件 C 等时没有创建任何文件但是 QFile 没有给我任何错误代码 error
composer.json 无法解析可安装的包集

我无法安装stof doctrine extensions bundle和我的作曲家我使用的是Symfony2 1 9版本显示了很多问题第一个是找不到请求的包 stof doctrine extensions bundle 1 1
forRoot() 模块方法的参数如何传递给提供者？

我发现了模块的 forRoot 方法的一些示例如下所示 export class CoreModule constructor Optional SkipSelf parentModule CoreModule if parentModu
如何使用 tm 创建 *.docx 文件的语料库？

我有 MS Word 文档的混合文件类型集合有些文件是 doc 有些是 docx 我正在学习使用tm我或多或少成功创建了一个由 doc 文件组成的语料库 ex eng lt Corpus DirSource R expertise c

如何使用 tm 创建 *.docx 文件的语料库？

如何使用 tm 创建 *.docx 文件的语料库？ 的相关文章

随机推荐

热门标签

如何使用 tm 创建 *.docx 文件的语料库？的相关文章