从多个txt文件创建语料库

2024-02-14

我有多个txt文件,我想要一个整洁的数据。为此,我首先创建语料库(我不确定这是否是真正的方法)。我编写了以下代码来获取语料库数据。

folder<-"C:\\Users\\user\\Desktop\\text analysis\\doc"
list.files(path=folder) 
filelist<- list.files(path=folder, pattern="*.txt")
paste(folder, "\\", filelist)
filelist<-paste(folder, "\\", filelist, sep="")
typeof(filelist)
a<- lapply(filelist,FUN=readLines)
corpus <- lapply(a ,FUN=paste, collapse=" ") 

当我检查class(corpus)它返回list。从那时起我怎样才能创建整洁的数据?


看看你的其他问题,你需要阅读文本挖掘以及如何读取文件。您现在的结果是一个列表对象。其本身并不是一个坏对象,但对于您的目的来说不正确。代替lapply, use sapply在你的最后一行,像这样:

corpus <- sapply(a , FUN = paste, collapse = " ")

这将返回一个字符向量。接下来您需要将其转换为 data.frame。我将文件列表添加到 data.frame 中以跟踪哪些文本属于哪个文档。

my_data <- data.frame(files = filelist, text = corpus, stringsAsFactors = FALSE)

然后使用 tidytext 继续:

library(tidytext)
tidy_text <- unnest_tokens(my_data, words, text)

使用 tm 和 tidytext 包

如果您使用 tm 包,您可以像这样阅读所有内容:

library(tm)
folder <- getwd() # <-- here goes your folder

corpus <- VCorpus(DirSource(directory = folder,
                            pattern = "*.txt"))

你可以把它变成这样的 tidytext :

library(tidytext)
tidy_corpus <- tidy(corpus)
tidy_text <- unnest_tokens(tidy_corpus, words, text)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从多个txt文件创建语料库 的相关文章

  • 将列表中的列转换为 R 中的数据框

    我有使用 R 创建的以下列表 set seed 326581 X1 rnorm 10 0 1 Y1 rnorm 10 0 2 data data frame X1 Y1 lst lt replicate 100 df smpl lt dat
  • R:将 readRDS 应用于 .Rds 文件名的列表对象

    我有几个包含数据帧对象的 Rds 文件 我想对每个文件应用一个函数并将数据帧绑定到单个数据帧中 但是 当我尝试从文件名列表中读取多个 Rds 文件时 我收到错误 FUN X i 中的错误 从连接读取时出错 readRDS 不适用于列表吗 R
  • 从 R 中的 HTTPS 连接逐行读取

    当创建连接时open r 它允许逐行读取 这对于批量处理大数据流非常有用 例如这个脚本 https gist github com jeroenooms d33a24958d99bb969ac0通过一次读取 100 行来解析相当大的 gzi
  • 如何按 data.table 中的十分位数组计算统计数据

    我有一个 data table 想按组计算统计数据 R set seed 1 R DT data table a rnorm 100 b rnorm 100 这些组应该定义为 R quantile DT a probs seq 1 9 1
  • 为绘图制作 2D 图例 - 双变量分区统计图

    我一直在玩双变量 choropleth 地图 并且一直在如何创建类似于 2d 图例的问题上陷入困境约书亚 史蒂文斯 http www joshuastevens net cartography make a bivariate chorop
  • 为什么这些数字不相等?

    下面的代码显然是错误的 有什么问题 i lt 0 1 i lt i 0 05 i 1 0 15 if i 0 15 cat i equals 0 15 else cat i does not equal 0 15 i does not eq
  • 带 R 的多彩标题

    我想添加颜色某些词在我的图表标题中 我已经能够在这里找到一些先例 http blog revolutionanalytics com 2009 01 multicolor text in r html 具体来说 我希望用撇号括起来的文本 在
  • 表单提交时出现 rvest 错误

    我想从以下网页中抓取数据 https swgoh gg u zozo collection 180 emperor palpatine https swgoh gg u zozo collection 180 emperor palpati
  • 如何计算嵌套函数中的粘合表达式?

    我正在尝试嵌套一个函数 该函数将两个字符串粘合在一起 该函数使用组合字符串来命名数据帧的列 然而 问题似乎是粘合表达式没有足够早地评估为字符串 我可以 并且应该 强制在将表达式作为参数传递给另一个函数之前对其进行求值吗 library ti
  • 16 位以上整数的计算

    我有两个大整数 两者都超过 16 位 确切地说是 20 位 而且我知道由于双精度浮点运算 我在使用这些数字进行计算甚至将它们存储在变量中 独立于编程语言 时受到限制 不过 我想也许gmp图书馆应该处理它们 但不幸的是它没有 可以计算更大的整
  • GGPLOT2:如何在 ggplot() 脚本中绘制特定选择

    这是一个名为的大型数据集的峰值P 其中有 10 个优惠 CS 有不同的商店 SHP 具有多个数值 数据集列出了按周排序的它们 WK 2 tm 52 它创建一个大文件 仅前 6 行出现峰值 WK MND CS SHP RevCY RevLY
  • 替换字符串/文本中“从第 n 次到最后一次”出现的单词

    这个问题以前曾被问过 但尚未得到令提问者满意的答案 https stackoverflow com questions 36368712 how to use stringrs replace all function to replace
  • 如何将 ggrough 图表另存为 .png

    说我正在使用R包裹ggrough https xvrdm github io ggrough https xvrdm github io ggrough 我有这个代码 取自该网页 library ggplot2 library ggroug
  • R - tidyr - 变异并传播多列

    我在 R 中有以下数据框 my df test lt data frame V1 c 1 2 1 V2 c A B A V3 c S1 S1 S2 V4 c x x x V5 c y y y V6 c A B C V7 c D E F my
  • 如何修改秤包生成的标签?

    所以我正在制作金字塔可视化 我在用着scale y continuous labels scales label number si accuracy 0 1 来生产标签 但是 我想去掉图表女性部分的负号 我认为保留 SI 后缀但删除负号的
  • ggplot 直方图相对于轴的位置不正确

    我试图这样绘制直方图 Todo lo haremos con base en un variable aleatoria Uniforme 0 1 set seed 26 n 10000 U lt runif n n Supongamos
  • R - Quantstart:多种股票的测试策略

    我正在使用一些指标构建基本交易策略 我的问题是我希望它在多个股票上运行 而不必指定我想要测试的每个单独的股票 目前我可以使用向量一次获取多个符号 如下所示 Get Shares from Yahoo Finance Stocks lt AS
  • 使用许多特殊字符将 R 连接到 HANA 数据库时出现问题

    我在将 HANA 数据读入 R 时遇到问题 我已通过以下方式建立了连接 ch lt odbcConnect HANA uid USER pwd PW 并确认我已通过以下方式连接 sqlTables ch 这会调出我的表格列表 对我想要拉取的
  • 迭代字符串 R 的字符

    有人可以解释一下为什么这不会在 R 中单独打印所有数字 numberstring lt 0123456789 for number in numberstring print number 字符串不就是字符数组吗 在 R 中该怎么做 In
  • 使用 R 交互式更改 Plotly 图像中的轴刻度(线性/对数)

    Goal 创建交互式下拉菜单 按钮来更新 R 中 Plotly 图形的轴比例 Issue 有很多关于创建的文档buttons https plot ly r custom buttons and 对数图 https plot ly r lo

随机推荐

  • Direct3D 10 是否有 COM 暴露

    先生们 尊敬的女士们 我在 Code Project 的 COM 论坛上发布了这个问题 并得到了一个傲慢的回复 希望对您有所帮助 我看到 Microsoft 有一个用于 Direct3D 9 的 COM 库 其 GUID 为 81BDCBC
  • 如何在R中创建列的md5哈希值?

    我有一个数据框 ID VID 1 xyz 0001 我想更换VIDmd5 哈希为VID列值 我该如何在 R 中做到这一点 我在看digest包但不知道如何将其放入 R 代码中 Thanks Package digest绝对适合这个任务 所以
  • Angular-jwt 如何在没有秘密的情况下解码我的 JWT?

    Auth0 团队创建了一个名为 angular jwt 的东西 它有一个 jwtHelper 类 这个东西成功解码了本地 JWT 而无需我在服务器上使用的秘密 这怎么发生的 如果它们不安全 那么使用秘密来签名 加密它们有什么意义呢 服务器上
  • HTML5

    我正在为客户开发一个网站 他们坚持使用 HTML5 的视频标签作为某些视频内容的交付方法 我目前在以下方面的帮助下已经启动并运行了它http videojs com http videojs com 处理 Internet Explorer
  • Android:如何将活动声明为主且可搜索?

    我希望我的主要活动也可以搜索 但是当我将 manifest xml 更改为
  • 如何在 macOS 上检测远程音频按钮?

    文章中处理外部玩家事件通知 https developer apple com documentation mediaplayer handling external player events notifications language
  • WPF DataGrid - 新条目的行不可见

    问题是 DataGrid 中的空白行没有出现 因此用户无法添加数据 这是代码 System Collections ObjectModel ObservableCollection
  • Android WebView 中的 HTML5 视频不一致

    当在 Android WebView 中的 HTML5 页面上显示 mp4 视频时 从远程 URL 检索文件时 视频和音频都会正确播放 当尝试从设备的 mnt sdcard 路径中播放相同的媒体文件时 仅播放媒体文件的音频部分 对此有什么想
  • 将文件加载到向量

    我想将文本文件的内容加载到vector
  • MVC 模型状态验证在列表框中失败

    我有一个简单的模型 它使用多选列表框来实现多对多 EF 关系 On my Create行动 我收到错误 从类型 System String 到类型 MyProject Models Location 的参数转换失败 因为没有类型转换器可以在
  • 实体类型和实体集之间的区别? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 什么是属性 实体 实体类型和实体集有什么区别 请举例说明其中的区别 STUDENT 身份证号码 姓名 年龄 1 公羊 122 萨姆 1
  • 《编程珍珠》第二版中集合的位向量实现

    在 Programming Pearls 第二版第 140 页上 Jon 提出了一种使用位向量实现集合的方法 现在我们将转向两个最终结构 它们利用了我们的集合代表整数这一事实 位向量是第 1 栏的老朋友 以下是它们的私有数据和函数 enum
  • 为什么 OnCreate 只能在 Activity 启动时调用一次?

    我想知道为什么OnCreate 在活动开始时只调用一次 我们可以打电话吗OnCreate 在同一活动中多次 如果是的话 我们该如何称呼它呢 谁能举个例子吗 多谢 为什么你想再次调用它 除非活动被重建 这是由系统调用的 您不能手动调用 OnC
  • 背景图像 svg 中的当前颜色

    我有一个内联 SVG 图像用作背景 简化的示例如下 div width 100 height 500px color green background image url data image svg xml utf8
  • PHP preg_replace 中的 \w 仅覆盖 UTF-8 字符的第二个字节

    我们有这样的代码 value preg replace w value where value是utf 8格式的 在此转换之后 多字节字符的第一个字节将被删除 如何让 w完全覆盖UTF 8字符 抱歉 我不太擅长 PHP 你可以尝试使用 u
  • Angular Universal npm runserve:ssr 返回“文档未定义”

    我最近为 Angular 8 实现了 Angular Universal 但是运行npm run serve ssr返回以下内容 ReferenceError document is not defined at new CssKeyfra
  • 在 VS2010 数据库项目中部署时设置 DefaultDataPath 和 DefaultLogPath

    确实 以下查询最初不是我的 但我在工作中面临着确切的问题 从而按原样复制问题陈述 我无法找到任何解决方案 我非常感谢以下问题集的任何建议或亮点 我在架构对象 数据库级别没有任何硬编码 对象 存储 文件 数据库和日志文件中 当我单击 部署 时
  • 如何在 Chrome 控制台中使用 ES6 语法,例如 let? [复制]

    这个问题在这里已经有答案了 我正在尝试写一些ES6chrome 控制台中的代码 但我运行时遇到了一些错误 我怎样才能运行ES6控制台中的脚本 例如 给定输入 let type grizzle 控制台记录了一个SyntaxError与消息 在
  • *ngIf Angular 中的 DOM 更新计时问题

  • 从多个txt文件创建语料库

    我有多个txt文件 我想要一个整洁的数据 为此 我首先创建语料库 我不确定这是否是真正的方法 我编写了以下代码来获取语料库数据 folder lt C Users user Desktop text analysis doc list fi