从多个txt文件创建语料库

2024-02-14

我有多个txt文件，我想要一个整洁的数据。为此，我首先创建语料库（我不确定这是否是真正的方法）。我编写了以下代码来获取语料库数据。

folder<-"C:\\Users\\user\\Desktop\\text analysis\\doc"
list.files(path=folder) 
filelist<- list.files(path=folder, pattern="*.txt")
paste(folder, "\\", filelist)
filelist<-paste(folder, "\\", filelist, sep="")
typeof(filelist)
a<- lapply(filelist,FUN=readLines)
corpus <- lapply(a ,FUN=paste, collapse=" ")

当我检查class(corpus)它返回list。从那时起我怎样才能创建整洁的数据？

看看你的其他问题，你需要阅读文本挖掘以及如何读取文件。您现在的结果是一个列表对象。其本身并不是一个坏对象，但对于您的目的来说不正确。代替lapply, use sapply在你的最后一行，像这样：

corpus <- sapply(a , FUN = paste, collapse = " ")

这将返回一个字符向量。接下来您需要将其转换为 data.frame。我将文件列表添加到 data.frame 中以跟踪哪些文本属于哪个文档。

my_data <- data.frame(files = filelist, text = corpus, stringsAsFactors = FALSE)

然后使用 tidytext 继续：

library(tidytext)
tidy_text <- unnest_tokens(my_data, words, text)

使用 tm 和 tidytext 包

如果您使用 tm 包，您可以像这样阅读所有内容：

library(tm)
folder <- getwd() # <-- here goes your folder

corpus <- VCorpus(DirSource(directory = folder,
                            pattern = "*.txt"))

你可以把它变成这样的 tidytext ：

library(tidytext)
tidy_corpus <- tidy(corpus)
tidy_text <- unnest_tokens(tidy_corpus, words, text)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tidytext

从多个txt文件创建语料库的相关文章

将列表中的列转换为 R 中的数据框

我有使用 R 创建的以下列表 set seed 326581 X1 rnorm 10 0 1 Y1 rnorm 10 0 2 data data frame X1 Y1 lst lt replicate 100 df smpl lt dat
R：将 readRDS 应用于 .Rds 文件名的列表对象

我有几个包含数据帧对象的 Rds 文件我想对每个文件应用一个函数并将数据帧绑定到单个数据帧中但是当我尝试从文件名列表中读取多个 Rds 文件时我收到错误 FUN X i 中的错误从连接读取时出错 readRDS 不适用于列表吗 R
从 R 中的 HTTPS 连接逐行读取

当创建连接时open r 它允许逐行读取这对于批量处理大数据流非常有用例如这个脚本 https gist github com jeroenooms d33a24958d99bb969ac0通过一次读取 100 行来解析相当大的 gzi
如何按 data.table 中的十分位数组计算统计数据

我有一个 data table 想按组计算统计数据 R set seed 1 R DT data table a rnorm 100 b rnorm 100 这些组应该定义为 R quantile DT a probs seq 1 9 1
为绘图制作 2D 图例 - 双变量分区统计图

我一直在玩双变量 choropleth 地图并且一直在如何创建类似于 2d 图例的问题上陷入困境约书亚史蒂文斯 http www joshuastevens net cartography make a bivariate chorop
为什么这些数字不相等？

下面的代码显然是错误的有什么问题 i lt 0 1 i lt i 0 05 i 1 0 15 if i 0 15 cat i equals 0 15 else cat i does not equal 0 15 i does not eq
带 R 的多彩标题

我想添加颜色某些词在我的图表标题中我已经能够在这里找到一些先例 http blog revolutionanalytics com 2009 01 multicolor text in r html 具体来说我希望用撇号括起来的文本在
表单提交时出现 rvest 错误

我想从以下网页中抓取数据 https swgoh gg u zozo collection 180 emperor palpatine https swgoh gg u zozo collection 180 emperor palpati
如何计算嵌套函数中的粘合表达式？

我正在尝试嵌套一个函数该函数将两个字符串粘合在一起该函数使用组合字符串来命名数据帧的列然而问题似乎是粘合表达式没有足够早地评估为字符串我可以并且应该强制在将表达式作为参数传递给另一个函数之前对其进行求值吗 library ti
16 位以上整数的计算

我有两个大整数两者都超过 16 位确切地说是 20 位而且我知道由于双精度浮点运算我在使用这些数字进行计算甚至将它们存储在变量中独立于编程语言时受到限制不过我想也许gmp图书馆应该处理它们但不幸的是它没有可以计算更大的整
GGPLOT2：如何在 ggplot() 脚本中绘制特定选择

这是一个名为的大型数据集的峰值P 其中有 10 个优惠 CS 有不同的商店 SHP 具有多个数值数据集列出了按周排序的它们 WK 2 tm 52 它创建一个大文件仅前 6 行出现峰值 WK MND CS SHP RevCY RevLY
替换字符串/文本中“从第 n 次到最后一次”出现的单词

这个问题以前曾被问过但尚未得到令提问者满意的答案 https stackoverflow com questions 36368712 how to use stringrs replace all function to replace
如何将 ggrough 图表另存为 .png

说我正在使用R包裹ggrough https xvrdm github io ggrough https xvrdm github io ggrough 我有这个代码取自该网页 library ggplot2 library ggroug
R - tidyr - 变异并传播多列

我在 R 中有以下数据框 my df test lt data frame V1 c 1 2 1 V2 c A B A V3 c S1 S1 S2 V4 c x x x V5 c y y y V6 c A B C V7 c D E F my
如何修改秤包生成的标签？

所以我正在制作金字塔可视化我在用着scale y continuous labels scales label number si accuracy 0 1 来生产标签但是我想去掉图表女性部分的负号我认为保留 SI 后缀但删除负号的
ggplot 直方图相对于轴的位置不正确

我试图这样绘制直方图 Todo lo haremos con base en un variable aleatoria Uniforme 0 1 set seed 26 n 10000 U lt runif n n Supongamos
R - Quantstart：多种股票的测试策略

我正在使用一些指标构建基本交易策略我的问题是我希望它在多个股票上运行而不必指定我想要测试的每个单独的股票目前我可以使用向量一次获取多个符号如下所示 Get Shares from Yahoo Finance Stocks lt AS
使用许多特殊字符将 R 连接到 HANA 数据库时出现问题

我在将 HANA 数据读入 R 时遇到问题我已通过以下方式建立了连接 ch lt odbcConnect HANA uid USER pwd PW 并确认我已通过以下方式连接 sqlTables ch 这会调出我的表格列表对我想要拉取的
迭代字符串 R 的字符

有人可以解释一下为什么这不会在 R 中单独打印所有数字 numberstring lt 0123456789 for number in numberstring print number 字符串不就是字符数组吗在 R 中该怎么做 In
使用 R 交互式更改 Plotly 图像中的轴刻度（线性/对数）

Goal 创建交互式下拉菜单按钮来更新 R 中 Plotly 图形的轴比例 Issue 有很多关于创建的文档buttons https plot ly r custom buttons and 对数图 https plot ly r lo

随机推荐

Direct3D 10 是否有 COM 暴露

先生们尊敬的女士们我在 Code Project 的 COM 论坛上发布了这个问题并得到了一个傲慢的回复希望对您有所帮助我看到 Microsoft 有一个用于 Direct3D 9 的 COM 库其 GUID 为 81BDCBC
如何在R中创建列的md5哈希值？

我有一个数据框 ID VID 1 xyz 0001 我想更换VIDmd5 哈希为VID列值我该如何在 R 中做到这一点我在看digest包但不知道如何将其放入 R 代码中 Thanks Package digest绝对适合这个任务所以
Angular-jwt 如何在没有秘密的情况下解码我的 JWT？

Auth0 团队创建了一个名为 angular jwt 的东西它有一个 jwtHelper 类这个东西成功解码了本地 JWT 而无需我在服务器上使用的秘密这怎么发生的如果它们不安全那么使用秘密来签名加密它们有什么意义呢服务器上
HTML5

我正在为客户开发一个网站他们坚持使用 HTML5 的视频标签作为某些视频内容的交付方法我目前在以下方面的帮助下已经启动并运行了它http videojs com http videojs com 处理 Internet Explorer
Android：如何将活动声明为主且可搜索？

我希望我的主要活动也可以搜索但是当我将 manifest xml 更改为
如何在 macOS 上检测远程音频按钮？

文章中处理外部玩家事件通知 https developer apple com documentation mediaplayer handling external player events notifications language
WPF DataGrid - 新条目的行不可见

问题是 DataGrid 中的空白行没有出现因此用户无法添加数据这是代码 System Collections ObjectModel ObservableCollection
Android WebView 中的 HTML5 视频不一致

当在 Android WebView 中的 HTML5 页面上显示 mp4 视频时从远程 URL 检索文件时视频和音频都会正确播放当尝试从设备的 mnt sdcard 路径中播放相同的媒体文件时仅播放媒体文件的音频部分对此有什么想
将文件加载到向量中

我想将文本文件的内容加载到vector
MVC 模型状态验证在列表框中失败

我有一个简单的模型它使用多选列表框来实现多对多 EF 关系 On my Create行动我收到错误从类型 System String 到类型 MyProject Models Location 的参数转换失败因为没有类型转换器可以在
实体类型和实体集之间的区别？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案什么是属性实体实体类型和实体集有什么区别请举例说明其中的区别 STUDENT 身份证号码姓名年龄 1 公羊 122 萨姆 1
《编程珍珠》第二版中集合的位向量实现

在 Programming Pearls 第二版第 140 页上 Jon 提出了一种使用位向量实现集合的方法现在我们将转向两个最终结构它们利用了我们的集合代表整数这一事实位向量是第 1 栏的老朋友以下是它们的私有数据和函数 enum
为什么 OnCreate 只能在 Activity 启动时调用一次？

我想知道为什么OnCreate 在活动开始时只调用一次我们可以打电话吗OnCreate 在同一活动中多次如果是的话我们该如何称呼它呢谁能举个例子吗多谢为什么你想再次调用它除非活动被重建这是由系统调用的您不能手动调用 OnC
背景图像 svg 中的当前颜色

我有一个内联 SVG 图像用作背景简化的示例如下 div width 100 height 500px color green background image url data image svg xml utf8
PHP preg_replace 中的 \w 仅覆盖 UTF-8 字符的第二个字节

我们有这样的代码 value preg replace w value where value是utf 8格式的在此转换之后多字节字符的第一个字节将被删除如何让 w完全覆盖UTF 8字符抱歉我不太擅长 PHP 你可以尝试使用 u
Angular Universal npm runserve:ssr 返回“文档未定义”

我最近为 Angular 8 实现了 Angular Universal 但是运行npm run serve ssr返回以下内容 ReferenceError document is not defined at new CssKeyfra
在 VS2010 数据库项目中部署时设置 DefaultDataPath 和 DefaultLogPath

确实以下查询最初不是我的但我在工作中面临着确切的问题从而按原样复制问题陈述我无法找到任何解决方案我非常感谢以下问题集的任何建议或亮点我在架构对象数据库级别没有任何硬编码对象存储文件数据库和日志文件中当我单击部署时
如何在 Chrome 控制台中使用 ES6 语法，例如 let？ [复制]

这个问题在这里已经有答案了我正在尝试写一些ES6chrome 控制台中的代码但我运行时遇到了一些错误我怎样才能运行ES6控制台中的脚本例如给定输入 let type grizzle 控制台记录了一个SyntaxError与消息在
*ngIf Angular 中的 DOM 更新计时问题
从多个txt文件创建语料库

我有多个txt文件我想要一个整洁的数据为此我首先创建语料库我不确定这是否是真正的方法我编写了以下代码来获取语料库数据 folder lt C Users user Desktop text analysis doc list fi

从多个txt文件创建语料库

使用 tm 和 tidytext 包

从多个txt文件创建语料库 的相关文章

随机推荐

热门标签

从多个txt文件创建语料库的相关文章