我有一个包含 3,500,000 个文本文档的语料库。我想构造一个 (3,500,000 * 5,000) 大小的 tf-idf 矩阵。这里我有 5,000 个不同的特征(单词)。
我在用scikit
sklearn
在Python中。我在哪里使用TfidfVectorizer
要做到这一点。我构建了一个 5000 大小的字典(每个特征一个)。在初始化时TfidfVectorizer
我正在设置参数vocabulary
与特征字典。但在拨打电话时fit_transform
,它显示一些内存映射,然后显示“CORE DUMP”。
- Does
TfidfVectorizer
对于固定词汇和大型语料库表现良好?
- 如果没有,那么其他选择是什么?
其他选项可以是gensim https://radimrehurek.com/gensim它在内存方面非常高效并且速度非常快。
这里是link https://radimrehurek.com/gensim/tut2.html到您的语料库的 tf-idf 教程。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)