Cholmod 错误“问题太大”到底意味着什么？将 dfm 转换为 df 时出现问题

2024-01-11

这是发布的另一个问题的新版本，现在有一个可重现的示例。

我正在尝试将文档特征矩阵从 29117 条推文转换为 R 中的数据帧，但出现错误

“asMethod(object) 中的错误：Cholmod 错误‘问题太大’位于文件 ../Core/cholmod_dense.c，第 105 行”

dfm 的大小约为 21MB，有 29117 行和 78294 个特征（推文中的单词按列分为 1 或 0，具体取决于该单词是否出现在推文中）

##generel info;
memory.size(max=TRUE)
# [1] 11418.75
sessionInfo()
# R version 3.6.1 (2019-07-05)
# Platform: x86_64-w64-mingw32/x64 (64-bit)
# Running under: Windows 10 x64 (build 18362)

##install packages, load librarys
# install.packages(c("quanteda", "devtools"))
# devtools::install_github("quanteda/quanteda.corpora")
library("quanteda")
library(RJSONIO)
library(data.table)
library(jsonlite)
library(dplyr)
library(glmnet)

##load data, convert to a dataframe, convert to a dfm

baseurl <- "https://raw.githubusercontent.com/alexlitel/congresstweets/master/data/"
d0 <- fromJSON(paste0(baseurl, "2019-10-07.json"), flatten = TRUE)
d1 <- fromJSON(paste0(baseurl, "2019-10-06.json"), flatten = TRUE)
d2 <- fromJSON(paste0(baseurl, "2019-10-05.json"), flatten = TRUE)
d3 <- fromJSON(paste0(baseurl, "2019-10-04.json"), flatten = TRUE)
d4 <- fromJSON(paste0(baseurl, "2019-10-03.json"), flatten = TRUE)
d5 <- fromJSON(paste0(baseurl, "2019-10-02.json"), flatten = TRUE)
d6 <- fromJSON(paste0(baseurl, "2019-10-01.json"), flatten = TRUE)
d7 <- fromJSON(paste0(baseurl, "2019-09-30.json"), flatten = TRUE)
d8 <- fromJSON(paste0(baseurl, "2019-09-29.json"), flatten = TRUE)
d9 <- fromJSON(paste0(baseurl, "2019-09-28.json"), flatten = TRUE)
d10 <- fromJSON(paste0(baseurl, "2019-09-27.json"), flatten = TRUE)
d11 <- fromJSON(paste0(baseurl, "2019-09-26.json"), flatten = TRUE)
d12 <- fromJSON(paste0(baseurl, "2019-09-25.json"), flatten = TRUE)

d <- rbind(d0,d1,d2,d3,d4,d5,d6,d7,d8,d9,d10,d11,d12)

rm(d0,d1,d2,d3,d4,d5,d6,d7,d8,d9,d10,d11,d12)

d$text <- as.character(d$text)

dfm <-dfm((corpus(select(d, id, text))), remove_punct=TRUE, remove=c(  stopwords("english"), "t.co", "https", "rt", "amp", "http", "t.c", "can"))

dfm_df <- convert(dfm, to= 'data.frame')

#Error in asMethod(object) : 
  #Cholmod error 'problem too large' at file ../Core/cholmod_dense.c, line 105

下面的代码适用于具有 2000 行的数据集示例（dfm (2MB) 中有 12577 个特征）。

我需要将 dfm 转换为数据框，因为我想添加变量并在二进制逻辑（套索）回归中使用它们，作为源以及推文是否是转发并包含 url


d_t <- d[c(1:2000), (1:7)]

##code control variable

#url

d_t$url<- as.integer(ifelse(grepl("://", d_t$text), "1", "0"))

#source used
d_t$source_grp[grepl("Twitter for Android", d_t$source)] <- "Twitter for Android"
d_t$source_grp[grepl("Twitter Web Client", d_t$source)] <- "Twitter Web Client"
d_t$source_grp[grepl("Twitter for iPhone", d_t$source)] <- "Twitter for iPhone"
d_t$source_grp[grepl("Twitter for Windows", d_t$source)] <- "Twitter for Windows"
d_t$source_grp[grepl("Twitter for Samsung Tablets", d_t$source)] <- "Samsung Tablets"
d_t$source_grp[grepl("Twitter for Android Tablets", d_t$source)] <- "Android Tablets"
d_t$source_grp[grepl("Twitter for Windows Phone", d_t$source)] <- "Windows Phone"
d_t$source_grp[grepl("Twitter for BlackBerry", d_t$source)] <- "BlackBerry"
d_t$source_grp[grepl("Twitter for iPad", d_t$source)] <- "Twitter for iPad"
d_t$source_grp[grepl("Twitter for Mac", d_t$source)] <- "Twitter for Mac"
d_t$source_grp[is.na(d_t$source_grp)] <- "Other"   

#retweet

d_t$retweet <- ifelse(grepl("RT @", d_t$text), "1", "0") #create a variable that takes the value 1 when it is a RT

##create a x and y matrix

x= model.matrix ( retweet~., cbind(select(d_t, retweet, source_grp, url), convert(dfm((corpus(select(d_t, id, text))), remove_punct=TRUE, remove=c(  stopwords("english"), "t.co", "https", "rt", "amp", "http", "t.c", "can")), to="data.frame")) )[,-1]

y=d_t$retweet

lasso <- cv.glmnet(x=x, y=y, alpha=1, nfolds=5, family="binomial")

我读过其他帖子，说“问题太大”错误是由于 RAM 量造成的。这个数据并不是很大，我尝试创建一个具有 30RAM 的虚拟机（在具有 30GB 可用空间的 64 位 Windows 上），但我仍然遇到相同的错误。因此，我想知道是否是 RAM 的数量有问题，或者 R 中数据帧的列数是否有限制？我可以毫无问题地将相同大小和更大的附加 DFM 添加到内存中。

这不是减少数据集并重新运行代码的解决方案，因为这已经是一个示例。我需要从 6 mio 行数据集创建的 dfm 创建一个数据框（或类似的东西）（如果可能）

感谢任何帮助/解决方案，以及将变量添加到 dfm 的其他方法，而不将其转换为数据帧。

提前致谢！

问题是您正在尝试转换稀疏矩阵（dfm）变成一个致密的物体。在您的情况下，其尺寸为：

> dfm
Document-feature matrix of: 29,117 documents, 78,294 features (100.0% sparse).

> prod(dim(dfm))
[1] 2279686398

或 23 亿个单元格，这就是错误发生的原因。该对象非常稀疏，这就是为什么它作为 dfm 不是问题，但当您尝试在矩阵中记录如此多的零时会爆炸。大部分对象是空的：

> sparsity(dfm)
[1] 0.9996795

这意味着 99.97% 的单元格为零。即使您可以创建 data.frame，拟合 LASSO 模型也行不通，因为特征中极度缺乏信息。

解决方案？修剪一些功能。

这有效，至少在我的机器上：

> dfmtrimmed <- dfm_trim(dfm, min_docfreq = 10, min_termfreq = 20, verbose = TRUE)
Removing features occurring: 
  - fewer than 20 times: 73,573
  - in fewer than 10 documents: 70,697
  Total features removed: 73,573 (94.0%).
> dfmtrimmed
Document-feature matrix of: 29,117 documents, 4,721 features (99.6% sparse).

> nrow(convert(dfmtrimmed, to = "data.frame"))
[1] 29117

但这仍然是 99.6% 的稀疏度，因此更积极地修剪更有意义。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

memory

quanteda

DFM

Cholmod 错误“问题太大”到底意味着什么？将 dfm 转换为 df 时出现问题的相关文章

在shiny中过滤传单地图数据

我在用传单地图设置这个闪亮的东西时遇到了麻烦我的原帖 https stackoverflow com questions 50111566 applying leaflet map bounds to filter data within
重复测量引导统计数据，按多个因素分组

我有一个看起来像这样的数据框但显然还有更多行等 df lt data frame id c 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 cond c A A B B A A B B A A B B A A B B co
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
替换 pandas 数据框中的点

我有一个如图所示的数据框数字实际上是对象正在做df treasury rate pd to numeric df treasury rate 可预见的炸弹然而做df replace np nan 似乎没有摆脱这个点所以我很困惑有
如何使用 Python Pandas 制作 DataFrame 切片并在特定切片中“fillna”？

问题让我们从 Kaggle 获取泰坦尼克号数据集我有包含 Pclass 性别和年龄列的数据框我需要用特定组的中位数填充年龄列中的 NaN 如果是来自一等的女性我想用一等女性的中位数填写她的年龄而不是整个年龄列的中位数问
选择 R 中的数据表中隐藏时（在绿色加号下方）列的显示顺序

Context 使用 DataTables 库制作交互式表格时当屏幕宽度对于列的数量和宽度来说太窄时列将隐藏在绿色号下我有一个非常宽的表格有 20 多列其中一些内容非常冗长因此某些列在所有屏幕宽度下总是隐藏的每次隐藏新列时
时间戳半小时窗口内字段的平均值

我的数据框有列名Timestamp es看起来像 Timestamp es 2015 04 01 09 07 42 31 2015 04 01 09 08 01 29 5 2015 04 01 09 15 03 18 5 2015 04 0
绘制点之间的所有线

我有以下 R 代码 x lt c 0 01848598 0 08052353 0 06741172 0 11652034 y lt c 0 4177541 0 4042247 0 3964025 0 4074685 d lt data fr
twitterR 和 ROAuth R 软件包安装

我在安装 CRAN 上的 twitteR 和 RAOuth 软件包时遇到一些问题我尝试了几种不同的方法在 Windows 下使用源代码在 Ubuntu 下使用 RStudio 我尝试了以下命令 sudo apt get install
gcc 没有小字符串优化吗？

Most std string实现包括 GCC 使用小字符串优化例如有一个answer https stackoverflow com a 21710033 2640636讨论这个今天我决定检查我编译的代码中的字符串在什么时候被移
API 请求和curl::curl_fetch_memory(url, handle = handle) 中的错误：SSL 证书问题：证书已过期

几天前我运行了代码几个月没有任何问题 GET url myurl query 今天我遇到一个错误 Error in curl curl fetch memory url handle handle SSL certificate pro
以引用透明的方式从函数的省略号参数中提取符号

事情又发生了我正要按下发布答案按钮的问题被删除了我正在寻找一种方法来从函数的省略号参数中提取绑定到符号的对象的值以及符号也就是说我试图以引用透明的方式从省略号中提取符号我尝试过使用替代品和lazy dots 但没有成功 funct
使用 R 选择第一个非 NA 值

df lt data frame ID c 1 1 1 2 3 3 3 test c NA 5 5 6 4 NA 7 3 NA 10 9 我想创建一个名为 value 的变量它是每个单独 ID 测试的第一个非 NA 值对于只有NA的个体
free 和 malloc 在 C 中如何工作？

我试图弄清楚如果我尝试从中间释放指针会发生什么例如看下面的代码 char ptr char malloc 10 sizeof char for char i 0 i lt 10 i ptr i i 10 ptr ptr ptr pt
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
文本挖掘 pdf 文件/词频问题

我正在尝试挖掘一篇具有丰富 pdf 编码和图表的文章的 pdf 我注意到当我挖掘一些 pdf 文档时我得到的高频词是 phi taeoe toe sigma gamma 等它与某些 pdf 文档配合良好但与其他文档配合使用时却得到这
指针和内存范围

我已经用 C 语言编程有一段时间了但对 C 语言还是很陌生有时我对 C 处理内存的方式感到困惑考虑以下有效的 C 代码片段 const char string void where is this pointer variable l
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data
如何获得所有大于x且有位置的数字？

V lt c 1 3 2 4 2 3 1 X lt 3 pos lt V V X pos is 3 3 我需要的是所有 3 个的位置 I need 2 and 6 哪些职位是3 in V Use which pos lt which V 3
如何在 R 中匹配多个 ggplot2 图中的调色板？

自从被问到这个问题以来已经有一段时间了但我知道一个事实我很快就会提取新数据我想弄清楚如何用这种技术来绘制它看起来评论和答案中的人知道如何做到这一点但我无法完全弄清楚所给我的内容还有人想尝试一下吗我正在尝试使用具有多个级别的因子

随机推荐

如何使用 PHPUnit 重置模拟对象

如何重置 PHPUnit 模拟的 Expects 我有一个 SoapClient 的模拟我想在测试中多次调用它重置每次运行的期望 soapClientMock this gt getMock SoapClient array soapC
如何构建一个异步休息端点，在工作线程中调用阻塞操作并立即回复（Quarkus）

我检查了文档和 stackoverflow 但没有找到合适的方法例如这篇文章看起来非常接近使用 Quarkus Mutiny 在 Reactive REST GET 端点中调度阻塞服务 https stackoverflow com
如何从 TensorFlow 中的 3-D 张量中选择行？

我有一个张量logits与尺寸 batch size num rows num coordinates 即批次中的每个 logit 都是一个矩阵在我的例子中批量大小为 2 有 4 行和 4 个坐标 logits tf constant
Mercurial：用于获取存储库名称的任何命令或 python api

是否有任何 Mercurial 命令或 Python API 可以生成存储库名称这将有助于开发跨存储库脚本我发现的唯一相关解决方案是解析 hg hgrc paths 默认配置选项部分 paths default ssh server
WebClient如何自动添加文件夹？

WebClient webClient new WebClient webClient DownloadFileAsync new Uri urlDownload C Files Test Folder test txt 如果我想将 tes
Excel VBA 的正则表达式正向回顾问题

我正在运行 VBA Excel 2003 并测试正向回顾正则表达式模式我运行下面的函数但出现以下错误 Run time error 5017 Method Execute of object IRegExp2 failed 我也尝试过Se
在 Blackberry 中创建对话框

Hi I want to create a Login Screen which has a Username and Password and a Sign in Button But when a user fails to enter
OpenAPI：“请求应具有必需的属性‘body’”

我正在我的应用程序中构建一个新端点它使用express openapi validator作为验证器中间件 index ts import as OpenApiValidator from express openapi validato
如何检测我的 Android 设备何时与配对的蓝牙设备连接/断开连接

我希望收到一个事件来检测蓝牙在我的设备中配对或取消配对的时间一开始我发现http developer android com reference android bluetooth BluetoothServerSocket html h
Windows 上 Python 3.6 中的原始套接字数据包嗅探器

我正在尝试嗅探数据包但我得到了奇怪的输出我不明白原因这就是我的代码please help me 我在 Windows 8 1 上使用 Python 3 6 Code import socket import struct import
获取 codeigniter 中的列值数组[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个具有以下结构的表整数 ID 11 用户 ID int 11 notification event id int 11 我如何获得
linq 中的 switch 语句

我使用 linq 进行 sql 连接的代码是 var query1 from u in dc Usage Computers where u DomainUser s3 select u selects all feilds from ta
Pyspark Spark DataFrame - 地图类型列中的聚合和过滤列

My DataFrame好像 c1 c2 c3 A b 22 00 A b 23 00 A b 09 00 A c 22 00 B c 09 30 我想执行一些聚合并创建第二个DataFrame有 3 列 c1 是我想要分组的列地图类别房
将 Spark 数据帧写入单个 Parquet 文件

我想做一些非常简单的事情但我遇到了一些非常愚蠢的挣扎我认为这一定与对 Spark 所做的事情的根本误解有关我将非常感谢任何帮助或解释我有一个非常大的表 3 TB 300MM 行 25k 分区在 s3 中保存为 parquet 我想
ProcessBuilder 重定向到标准输出

我想将 java 进程输出重定向到父 java 进程的标准输出使用 ProcessBuilder 类如下 public static void main String args ProcessBuilder processBuilder
每次获取不同的地址

在下面的代码中我每次都会为第一个元素获得不同的地址std vector v 为什么会这样呢 include
将类标签附加到 Keras 模型

我正在使用 Keras 顺序模型来训练许多多类分类器在评估时 Keras 输出一个置信度向量我可以使用 argmax 从中推断出正确的类 ID 然后我可以使用查找表来接收实际的类标签例如字符串到目前为止解决方案是加载训练好的模型
关闭子窗体时如何刷新datagridview？

我的主窗体上有一个 dgv 有一个按钮可以打开另一个窗体以将一些数据插入到绑定到 dgv 的数据源中我想要当子窗体关闭 dgv 自动刷新时我尝试将其添加到子表单关闭事件中但它不会刷新 private void frmNew FormC
如何在C++中定义常量？

我通过Mingw在windows上编译了一个linux程序然而转换并不完美例如在 Windows 上输出是这样的我得到 zu 而不是实数 Approximated minimal memory consumption Seque
Cholmod 错误“问题太大”到底意味着什么？将 dfm 转换为 df 时出现问题

这是发布的另一个问题的新版本现在有一个可重现的示例我正在尝试将文档特征矩阵从 29117 条推文转换为 R 中的数据帧但出现错误 asMethod object 中的错误 Cholmod 错误问题太大位于文件 Core cholm

Cholmod 错误“问题太大”到底意味着什么？将 dfm 转换为 df 时出现问题

Cholmod 错误“问题太大”到底意味着什么？将 dfm 转换为 df 时出现问题 的相关文章

随机推荐

热门标签

Cholmod 错误“问题太大”到底意味着什么？将 dfm 转换为 df 时出现问题的相关文章