使用 Scikit Learn 的 DictVectorizer 时出现 toarray 内存错误

2023-11-27

我正在尝试对我的数据实施 SelectKBest 算法，以从中获得最佳功能。为此，我首先使用 DictVectorizer 预处理数据，该数据由 1061427 行和 15 个特征组成。每个功能都有许多不同的值，我相信由于高基数我遇到了内存错误。

我收到以下错误：

File "FeatureExtraction.py", line 30, in <module>
    quote_data = DV.fit_transform(quote_data).toarray()
File "/usr/lib64/python2.6/site-packages/scipy/sparse/compressed.py", line 563, in toarray
    return self.tocoo(copy=False).toarray()
File "/usr/lib64/python2.6/site-packages/scipy/sparse/coo.py", line 233, in toarray
    B = np.zeros(self.shape, dtype=self.dtype)
MemoryError

有什么替代方法可以做到这一点吗？为什么在具有 256GB RAM 的计算机上处理时会出现内存错误。

任何帮助表示赞赏！

我解决了这个问题。

当我删除基数非常高的列时，DictVectorizer 工作正常。该列有数百万个不同的唯一值，因此 dictvectorizer 给出了内存错误。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scipy

scikitlearn

使用 Scikit Learn 的 DictVectorizer 时出现 toarray 内存错误的相关文章

使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

如何从实际计算机访问虚拟机上的django开发服务器

好的我的笔记本电脑已经安装了 vmware 播放器我正在将 lubuntu 作为虚拟机运行并且在虚拟机上安装了 django 并正在测试我的应用程序因此我执行了 python manage py runserver 并且我可以通过从
如何使用 Bootstrap 4 实现响应式排版？

我正在使用 Bootstrap 4 构建响应式 Web 应用程序与桌面相比我希望在移动设备上减小所有文本的字体大小因此我根据 Bootstrap 文档将以下内容添加到我的基本 css 文件中 https getbootstrap co
c3p0 连接池是否确保最大池大小？

我已经经历了几个问题 this有些相关但没有回答我的问题 c3p0 是否有连接池maxPoolSize确保某个时间的连接数永远不会超过这个限制如果maxPoolSize 5并且 10 个用户同时开始使用该应用程序我的应用程序配置
iText：如何在同一文档中插入背景图像以刷新响应

我正在创建一个 PDF 并编写流作为响应在写入流之前我想在所有页面中添加背景图像作为水印以便通过响应刷新的 PDF 文档是最后一个带水印的文档嗨这是我的代码示例任何帮助将非常感激 private static String ge
使用 Javascript 检测 Flash 应用程序是否正确加载？

我的产品打开一个 Web 浏览器并将其指向包含本地 Flash 应用程序的 HTML 文件如何以编程方式检测该文件是否加载成功如果没有成功则抛出什么异常有没有办法使用 JavaScript 来做到这一点从外部检查文件是否存在于磁盘上
用于获取日期的星期几的确定性标量函数

SQL Server 尝试通过确定性 UDF 获取星期几我确信这一定是可能的但无法弄清楚更新示例代码 CREATE VIEW V Stuff WITH SCHEMABINDING AS SELECT MD ID MD DateTim
Android ImageAdapter 与 Fragment 中的 Gridview

我有一个带有 gridview 的适配器它作为一个 Activity 工作我现在尝试将其放入片段中并转换内容但它不起作用当我在 Activity 中包含 IconFragmentSystem 时当我尝试打开 Activity 时
spawnSync /bin/sh ENOBUFS

Error spawnSync bin sh ENOBUFS 在执行以下行时非系统地在我的 NodeJs 应用程序中生成 child process execSync cd tmp myFolder tar xjf myArchive t
发送到应用程序的 CTRL-C 单元测试

I am developing an application handling CTRL C I am producing a signal handler to shut down gracefully threads and other
Google Play 内容政策 [关闭]

Closed 这个问题是无关目前不接受答案我刚刚收到一封来自 Google 的电子邮件告诉我我的一个应用违反了开发者条款我有 7 天的时间来遵守他们是这么说的警告原因违反内容的垃圾邮件规定政策请勿发布重复内容产品描述不应
查找数组中出现次数最多的元素 [java]

我必须找到双精度数组中出现次数最多的元素我是这样做的 int max 0 for int i 0 i lt array length i int count 0 for int j 0 j lt array length j if arr
如何将 Swift 对象序列化或转换为 JSON？

下面这个类 class User NSManagedObject NSManaged var id Int NSManaged var name String 需要转换为 id 98 name Jon Doe 我尝试手动将对象传递给函数该
使用 HTTP Post 从客户端流式传输数据

我想将数据从客户端流式传输到服务器我的应用程序将音频数据流式传输到服务器当我开始流式传输时我不知道音频会持续多长时间我想通过在记录数据时传输数据来减少延迟一旦所有数据上传完毕我就会对其进行处理所以我想要的是一个 HTTP P
如何在 UWP 应用中保留 TextBlock 的空白

如果您只是将 TextBlock 中的 Text 属性的值设置为例子请注意此处有 3 个空格end这个字符串 TextBlock 在 UI 中显示的只是 Example 并且在网上搜索解决方案后发现有一种方法可以解决这个问题
如何用 C++ 读取和解析 CSV 文件？

我需要在 C 中加载和使用 CSV 文件数据此时它实际上可以只是一个逗号分隔的解析器即不用担心转义新行和逗号主要需要是一个逐行解析器每次调用该方法时它将返回下一行的向量我发现这篇文章看起来很有前途 http www boost
javascript，在开始颜色和结束颜色之间选择一个随机的十六进制颜色

有什么快速的方法可以实现这一点吗例如起始颜色 EEEEEE 和结束颜色 FFFFFF 会产生类似 FEFFEE 的颜色当然十六进制被编码为数字但要使其有意义您必须首先提取 rgb 组件 function rgb string r
php邮件的smtp配置

我使用 php 邮件功能从我的网站发送邮件但现在它不起作用我联系了我们的托管团队然后他们告诉我使用 smtp 因为他们对服务器做了一些更改我不知道该怎么做当前代码带有 php 邮件功能如下任何人都可以帮助我进行与此相关的更改
Go 闭包在内存中是如何布局的？

有关闭包的一般解释请参见JavaScript 闭包如何工作 Go 闭包到底是如何在内存中布局的以以下函数为例 type M int func m M Adder amount int func return func m m amoun
FileHelpers 和 CSV：当记录可以无限水平扩展时该怎么办

我正在尝试使用 FileHelpers 解析这种类型的 CSV 文件 Tom 1 2 3 4 5 6 7 8 9 10 Steve 1 2 3 Bob 1 2 3 4 5 6 Cthulhu 1 2 3 4 5 Greg 1 2 3 4 5
使用 Scikit Learn 的 DictVectorizer 时出现 toarray 内存错误

我正在尝试对我的数据实施 SelectKBest 算法以从中获得最佳功能为此我首先使用 DictVectorizer 预处理数据该数据由 1061427 行和 15 个特征组成每个功能都有许多不同的值我相信由于高基数我遇到了内存

使用 Scikit Learn 的 DictVectorizer 时出现 toarray 内存错误

使用 Scikit Learn 的 DictVectorizer 时出现 toarray 内存错误 的相关文章

随机推荐

热门标签

使用 Scikit Learn 的 DictVectorizer 时出现 toarray 内存错误的相关文章