如何获得预先指定特征的大型语料库的 tf-idf 矩阵?

2023-12-28

我有一个包含 3,500,000 个文本文档的语料库。我想构造一个 (3,500,000 * 5,000) 大小的 tf-idf 矩阵。这里我有 5,000 个不同的特征(单词)。

我在用scikit sklearn在Python中。我在哪里使用TfidfVectorizer要做到这一点。我构建了一个 5000 大小的字典(每个特征一个)。在初始化时TfidfVectorizer我正在设置参数vocabulary与特征字典。但在拨打电话时fit_transform,它显示一些内存映射,然后显示“CORE DUMP”。

  1. Does TfidfVectorizer对于固定词汇和大型语料库表现良好?
  2. 如果没有,那么其他选择是什么?

其他选项可以是gensim https://radimrehurek.com/gensim它在内存方面非常高效并且速度非常快。 这里是link https://radimrehurek.com/gensim/tut2.html到您的语料库的 tf-idf 教程。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何获得预先指定特征的大型语料库的 tf-idf 矩阵? 的相关文章

随机推荐