R tm：将“PCorpus”后端文件哈希数据库重新加载为语料库（例如在重新启动的会话/脚本中）

2024-01-05

从这个网站上的答案中学到了很多东西（谢谢！），终于是时候问我自己的问题了。

我使用 R（tm 和 lsa 包）来创建、清理和简化大约 15,000 个文本文档的语料库，然后运行 LSA（潜在语义分析）。我在 Mac OS X 10.6 下的 R 3.0.0 中执行此操作。

为了提高效率（并应对 RAM 太小的问题），我一直在尝试使用 tm 中的“PCorpus”（“filehash”包支持的后端数据库支持）选项，或较新的“tm.plugin.dc”所谓的“分布式”语料库处理选项）。但我真的不明白其中任何一个在引擎盖下是如何工作的。

使用 DCorpus 和 tm_map 时出现的一个明显错误（目前不相关）导致我转而使用 PCorpus 选项进行一些预处理工作。这需要几个小时。所以我使用 R CMD BATCH 来运行一个脚本，执行以下操作：

> # load corpus from predefined directory path,
> # and create backend database to support processing:
> bigCcorp = PCorpus(bigCdir, readerControl = list(load=FALSE), dbControl = list(useDb = TRUE, dbName = "bigCdb", dbType = "DB1"))

> # converting to lower case:
> bigCcorp = tm_map(bigCcorp, tolower)

> # removing stopwords:
> stoppedCcorp = tm_map(bigCcorp, removeWords, stoplist)

现在，假设我的脚本在此之后不久崩溃，或者我只是忘记以其他形式导出语料库，然后我重新启动 R。数据库仍然在我的硬盘上，充满了整理得很好的数据。我当然可以将其重新加载到新的 R 会话中，继续进行语料库处理，而不是重新开始？

这感觉就像一个面条问题......但是没有多少 dbInit() 或 dbLoad() 或“PCorpus()”函数的变体似乎起作用。有谁知道正确的咒语吗？

我已经搜索了所有相关文档以及我能找到的每一篇论文和网络论坛，但完全空白 - 似乎没有人做过。还是我错过了？

最初的问题来自 2013 年。同时，在 2015 年 2 月，重复或类似的问题已得到解答：

如何重新连接R tm包中的PCorpus？ https://stackoverflow.com/questions/28377646/how-to-reconnect-to-the-pcorpus-in-the-r-tm-package。这篇文章中的答案很重要，尽管相当简约，所以我将尝试在这里补充它。

这些是我在处理类似问题时刚刚发现的一些评论：

请注意，dbInit()函数不是 tm 包的一部分。

首先你需要安装filehash包，其中tm- 文档仅“建议”安装。这意味着它不是硬依赖tm.

据说，您还可以使用filehashSQLite封装有library("filehashSQLite")代替library("filehash")，并且由于面向对象的设计，这两个包具有相同的接口并且可以无缝地协同工作。因此还要安装“filehashSQLite”（2016 年编辑：filehashSQLite 未实现某些函数，例如 tn::content_transformer()）。

那么这有效：

library(filehashSQLite)
# this string becomes filename, must not contain dots. 
# Example: "mydata.sqlite" is not permitted.
s <- "sqldb_pcorpus_mydata" #replace mydat with something more descriptive 

suppressMessages(library(filehashSQLite))

if(! file.exists(s)){
        # csv is a data frame of 900 documents, 18 cols/features
        pc = PCorpus(DataframeSource(csv), readerControl = list(language = "en"), dbControl = list(dbName = s, dbType = "SQLite"))
        dbCreate(s, "SQLite")
        db <- dbInit(s, "SQLite")
        set.seed(234)
        # add another record, just to show we can.
        # key="test", value = "Hi there"
        dbInsert(db, "test", "hi there")
} else {
        db <- dbInit(s, "SQLite")
        pc <- dbLoad(db)
}



show(pc)
# <<PCorpus>>
# Metadata:  corpus specific: 0, document level (indexed): 0
#Content:  documents: 900
dbFetch(db, "test")
# remove it
rm(db)
rm(pc)

#reload it
db <- dbInit(s, "SQLite")
pc <- dbLoad(db) 

# the corpus entries are now accessible, but not loaded into memory.
# now 900 documents are bound via "Active Bindings", created by makeActiveBinding() from the base package
show(pc)
# [1] "1"    "2"    "3"    "4"    "5"    "6"    "7"    "8"    "9"    
# ...
# [900]
#[883] "883"  "884"  "885"  "886"  "887"  "888"  "889"  "890"  "891"  "892" 
#"893"  "894"  "895"  "896"  "897"  "898"  "899"  "900" 
#[901] "test"

dbFetch(db, "900")
# <<PlainTextDocument>>
#         Metadata:  7
# Content:  chars: 33

dbFetch(db, "test")
#[1] "hi there"

这就是数据库后端的样子。您可以看到数据帧中的文档已在 sqlite 表内以某种方式进行编码。

This is what my RStudio IDE shows me:

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R tm：将“PCorpus”后端文件哈希数据库重新加载为语料库（例如在重新启动的会话/脚本中）的相关文章

如何从 R 读取 PDF 元数据

我们很好奇有没有一种方法可以从 R 读取 PDF 元数据例如下面显示的信息通过搜索我对此无能为力 r pdf metadata在当前的问题库中非常欢迎任何指点我想不出纯 R 的方法来执行此操作但您可能可以安装您最喜欢的 PDF
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
以编程方式将字符串宽度值插入到 sprintf() 中

我正在尝试以编程方式将字符串宽度值插入到sprintf 格式期望的结果是 sprintf 20s hello 1 hello 但我想插入20在同一通话中即时进行因此它可以是任何号码我努力了 sprintf ds 20 hello 1
删除极坐标图边缘的多余空间和圆环

我有一个极坐标图ggplot2我已经非常接近完成相当简单的情节我已经能够在删除矩形边框方面获得帮助但我不需要删除最后一个范围轮廓与带有方位角标签的绘图周围的环之间的额外空间我希望该图的边界为 15 000 而不是 15 214 我编
SPSS 中的标准化残差与 R rstandard(lm()) 不匹配

在寻找 R 相关解决方案时我发现 R 和 SPSS 版本 24 在计算简单线性模型中的标准化残差方面存在一些不一致看来SPSS所谓的标准化残差匹配 R学生化残差我完全不认为某处存在软件错误但显然这两个程序之间存在差异看看这个例子
R：使用 tidyverse 将 NA 替换为 df 中的其他变量

我想使用 tidyverse 替换 df 中的 NA 值我想要的值应该从其他列中计算出来 input ID X1 X2 X3 A 0 96 NA 0 97 B 1 00 NA 1 01 C 0 98 0 03 NA A 1 00 NA 1
使用 template.docx 从 Shiny App 编织 Word 文档

我正在尝试使用 template docx 文件从闪亮的应用程序编写一个 Word 文档我收到以下错误消息 pandoc exe template docx openBinaryFile 不存在没有这样的文件或目录以下 3 个文件当前
在 Shiny 中的用户会话之间共享反应数据集

我有一个相当大的反应数据集该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的数据更新频繁需要不断重新加载诚然重新加载可以增量完成并附加到 R 中的现有对象但事实并非如此然而目前尽管会话中的数据相同但此操作是针对
如何使用 dplyr 独立过滤每列的行

我有以下内容 library tidyverse df lt tibble tribble gene colB colC a 1 2 b 2 3 c 3 4 d 1 1 df gt A tibble 4 x 3 gt gene colB c
闪亮应用程序中的本地图像没有 img(src())？

我想按照以下说明在我的闪亮应用程序中包含本地图像文件在闪亮的应用程序中嵌入图像 https stackoverflow com questions 21996887 embedding image in shiny app 然而由于某种
显示特定颜色

我正在研究颜色分类我正在用特定颜色初始化一个矩阵以便可以获得红色蓝色或绿色的 16x16 矩阵代码如下 library rgl color1 lt function n lt 3 m lt 16 a lt list numeric
rvest如何通过id选择特定的css节点

我正在尝试使用 rvest 包从网页中抓取数据简单来说 html 代码如下所示 div class style div
什么时候在“strsplit”中设置“perl=TRUE”不起作用（按预期或根本不起作用）？

我只是在尝试优化一些代码时做了一些基准测试并观察到strsplit with perl TRUE is faster比跑步strsplit with perl FALSE 例如 set seed 1 ff lt function paste
R闪亮数据表在开始时不显示记录（行）

我正在构建一个带有数据表的闪亮应用程序我想要的是启动时不显示任何记录行这样您只能看到表格顶部的过滤器当您开始输入时会显示行我在数据表中找不到选项这可能吗下面是示例代码 shinyApp ui navbarPage title
R - 在浏览器中获取帮助而不是内置的 R 帮助程序

我见过 R help 的两种不同行为当你输入 density例如帮助已在您的默认浏览器中打开帮助在内置 R 帮助程序中打开 R 中的窗口我目前有第二种行为但我想在浏览器中打开帮助我可以轻松地在这两种行为之间切换吗无需重新安装
如何停止在 mongodb 集合中插入重复文档

让我们有一个MongoDB包含三个文档的集合 db collection find id user A title Physics Bank Bank A id user A title Chemistry Bank Bank B id u
将密度曲线拟合到 R 中的直方图

R中有没有可以将曲线拟合到直方图的函数假设您有以下直方图 hist c rep 65 times 5 rep 25 times 5 rep 35 times 10 rep 45 times 4 看上去很正常但其实是歪曲的我想拟合一条倾
指定 R 中 hist() 中的 bin 数量？

我尝试指定垃圾箱的数量hist R为10 如下 gt hist x breaks 10 但垃圾箱的数量并不完全是 10 我尝试了几个其他数量的垃圾箱结果发生了同样的情况 hist says breaks可以指定给出直方图单元格数量的单个
如何生成向量的所有组合[重复]

这个问题在这里已经有答案了假设我有 3 个绿球 2 个橙球和 8 个黄球我想订购它们鉴于所有相同颜色的球都是相同的如何生成所有可能的序列在 R 中使用gregmisc 我可以 balls lt c orange orange g
如何调整ggplot直方图的时间刻度轴

我正在使用一个数据框其中一列包含POSIXct日期时间值我正在尝试使用绘制这些时间戳的直方图ggplot2但我有两个问题我不知道如何设置 binwidthgeom histogram 我想将每个垃圾箱设置为一天或一周我尝试提供 di

随机推荐

Spring Data Rest PUT 与 PATCH LinkableResources

我正在使用 Spring Data REST 来公开我的实体及其关系我在两个实体之间有一对一的关系并且我正在尝试更新更改与 PUT 和 PATCH 的关系我注意到 Spring Data REST 只允许您更新链接资源 JPA 映射
检测IE9而不进行功能检测

所以我需要检测 IE 9 我知道我真的应该使用特征检测 https stackoverflow com questions 1944169 detecting ie using jquery 1944186 1944186但我不知道是什么功
如何通过mvn命令顺序执行2个Java类

我有 2 个具有共生关系的 Java 类类 1 生成一些输出文件类 2 使用类 1 的输出并验证它这两个类都从命令行获取输入这个项目是基于maven的鉴于这种共生性质我不确定如何连接它们我的想法是编写另一个 Java 类
exec：语法错误：“返回”外部函数

我将代码片段存储在 Postgres 数据库中当我需要代码时我在数据库中找到它并使用exec 功能代码片段是extract功能不幸的是它返回了SyntaxError return outside function Method de
空对基类的目的是什么？

libstdc 库 https github com gcc mirror gcc blob 16e2427f50c208dfe07d07f18009969502c25dc8 libstdc 2B 2B v3 include bits st
在 Perl 中，如何正确解析带有引号字符串的制表符/空格分隔文件？

我需要解析 Perl 中包含很多列的制表符空格分隔的文件这些值使得大字符串括在双引号内这些字符串可以包含任何字符例如制表符和空格或其他任何字符当我尝试使用 split 函数解析它们时它也会拆分这些字符串现在我怎样才能让 per
固定宽度整数类型的整数文字

对于像这样的固定宽度整数类型是否有一些针对整数文字的 C 建议 i s type is unsigned int auto i 10u j s type is uint32 t auto j 10u32 Yes P1280R0 整数宽度文
PostgreSQL 加载 back.json 文件时出现重复密钥问题

我有一个 PostgreSQL 数据库我在其中执行了 python manage py dumpdata 将数据备份到 json 文件中我创建了一个新的 PostgreSQL 数据库执行了迁移一切都顺利进行当我尝试使用 pytho
单击外部时如何隐藏 DIV 元素

我有一个div当我点击外部时想要隐藏它我的代码是 div The div must be above button div mydiv click function e e stopPropagation document click f
Qt 的最佳 C# 绑定？

我用 C 使用 SDL NET 和 OpenGL 编写了一个游戏我想为其添加一个菜单为此我需要 Qt 您推荐在 C 中为 Qt 使用哪些绑定 Qyoto http techbase kde org Development Languag
使用 ggplot 围绕多个 geom_point 组绘制轮廓

I currrently have the code included below to draw this 我想做的是为每个组制定一个大纲以遵循每个组中的所有要点而不是像目前那样跳过其中的一些要点此外我希望每个轮廓都有半透明填充
类别 - 子类别 - 产品选择表单的大多数 djongonic 解决方案？

假设我们有这三个模型 cagegory id name subcategory id id category name product id id sub category name 共有30个大类每个大类下有30个小类每个小类下有50
另一个 FizzBuzz 解决方案[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我参加了一次工作面试被要求用 PHP 解决 FizzBu zz 问题编写一个程序打印从 1 到 100 的数字但是对于 3 的
为什么 while 里面的 cin 不停止获取用户输入？

我现在开始学习 C 所以我想这将是一个非常简单的新手问题那么为什么 while 内的 cin gt gt x 行不会停止循环以获取用户输入如果用户输入字符而不是数字 include
Node.js 上的 Google Storage API 自定义标头

我在用googleapis auth JWT进行身份验证和request分段上传将 JSON 文件上传到谷歌存储它按预期工作这是代码 var data JSON stringify json var metadata name name
MathJax 可以将 LaTeX 数学表达式渲染为图像吗？

我知道MathJax http www mathjax org 可以将 LaTeX 数学表达式呈现为文本 MathJax 可以将 LaTeX 数学表达式渲染为图像吗我在帮助文档中找不到任何关于此的信息如果是的话你能告诉我详情吗谢谢
如何在 Java 中使用 REST [重复]

这个问题在这里已经有答案了使用Java工具 wscompile for RPC wsimport for Document etc 我可以使用 WSDL 生成访问 SOAP Web 服务所需的存根和类但我不知道如何在 REST 中做同样
将节点与具有关系的公共节点匹配 - Neo4j Cypher

我有许多用户节点和技能节点这种关系是技能和用户之间的关系 USING PERIODIC COMMIT 1000 LOAD CSV WITH HEADERS FROM file xyz csv AS row FIELDTERMINATOR
从 xsd:choice 元素自定义 JAXB 2.0 生成的方法名称

我试图弄清楚如何自定义由 JAXB 2 1 12 生成的方法名称我有一个史诗般的 XML 模式不在我的控制范围内它包含一个带有 choice 元素的组其中包含大约 200 个其他元素因此当我生成 JAXB 类时创建的 get
R tm：将“PCorpus”后端文件哈希数据库重新加载为语料库（例如在重新启动的会话/脚本中）

从这个网站上的答案中学到了很多东西谢谢终于是时候问我自己的问题了我使用 R tm 和 lsa 包来创建清理和简化大约 15 000 个文本文档的语料库然后运行 LSA 潜在语义分析我在 Mac OS X 10 6 下的 R 3

R tm：将“PCorpus”后端文件哈希数据库重新加载为语料库（例如在重新启动的会话/脚本中）

R tm：将“PCorpus”后端文件哈希数据库重新加载为语料库（例如在重新启动的会话/脚本中） 的相关文章

随机推荐

热门标签

R tm：将“PCorpus”后端文件哈希数据库重新加载为语料库（例如在重新启动的会话/脚本中）的相关文章