看看你的其他问题,你需要阅读文本挖掘以及如何读取文件。您现在的结果是一个列表对象。其本身并不是一个坏对象,但对于您的目的来说不正确。代替lapply
, use sapply
在你的最后一行,像这样:
corpus <- sapply(a , FUN = paste, collapse = " ")
这将返回一个字符向量。接下来您需要将其转换为 data.frame。我将文件列表添加到 data.frame 中以跟踪哪些文本属于哪个文档。
my_data <- data.frame(files = filelist, text = corpus, stringsAsFactors = FALSE)
然后使用 tidytext 继续:
library(tidytext)
tidy_text <- unnest_tokens(my_data, words, text)
使用 tm 和 tidytext 包
如果您使用 tm 包,您可以像这样阅读所有内容:
library(tm)
folder <- getwd() # <-- here goes your folder
corpus <- VCorpus(DirSource(directory = folder,
pattern = "*.txt"))
你可以把它变成这样的 tidytext :
library(tidytext)
tidy_corpus <- tidy(corpus)
tidy_text <- unnest_tokens(tidy_corpus, words, text)