我正在尝试对我的数据实施 SelectKBest 算法,以从中获得最佳功能。为此,我首先使用 DictVectorizer 预处理数据,该数据由 1061427 行和 15 个特征组成。每个功能都有许多不同的值,我相信由于高基数我遇到了内存错误。
我收到以下错误:
File "FeatureExtraction.py", line 30, in <module>
quote_data = DV.fit_transform(quote_data).toarray()
File "/usr/lib64/python2.6/site-packages/scipy/sparse/compressed.py", line 563, in toarray
return self.tocoo(copy=False).toarray()
File "/usr/lib64/python2.6/site-packages/scipy/sparse/coo.py", line 233, in toarray
B = np.zeros(self.shape, dtype=self.dtype)
MemoryError
有什么替代方法可以做到这一点吗?为什么在具有 256GB RAM 的计算机上处理时会出现内存错误。
任何帮助表示赞赏!
我解决了这个问题。
当我删除基数非常高的列时,DictVectorizer 工作正常。该列有数百万个不同的唯一值,因此 dictvectorizer 给出了内存错误。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)