如何将单词和向量手动添加到Word2vec gensim?

2024-04-19

比方说,word2vec模型是我训练过的 word2vec 模型。当词汇表之外的单词(oov_word)发生时,我计算一个向量vec using 计算向量(oov_word)方法。现在,我想添加/追加oov_word及其对应的向量vec到我已经训练好的模型word2vec模型.

我已经检查过以下链接。但他们没有回答我的问题。

组合/添加来自不同 word2vec 模型的向量 https://stackoverflow.com/questions/54243797/combining-adding-vectors-from-different-word2vec-models

https://datascience.stackexchange.com/questions/49431/how-to-train-an-existing-word2vec-gensim-model-on-new-words https://datascience.stackexchange.com/questions/49431/how-to-train-an-existing-word2vec-gensim-model-on-new-words

https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.BaseKeyedVectors.add https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.BaseKeyedVectors.add


from gensim.models.keyedvectors import WordEmbeddingsKeyedVectors
vector_length = 100
kv = WordEmbeddingsKeyedVectors(vector_length)

# wordList - list of words
# vectorList - list of the vector corresponding to the words

kv.add(wordList, vectorList)

kv.most_similar(word1) # gives the list of words similar to word1
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何将单词和向量手动添加到Word2vec gensim? 的相关文章

  • 如何使用单词的向量表示(从 Word2Vec 等获得)作为分类器的特征?

    我熟悉使用 BOW 特征进行文本分类 其中我们首先找到语料库的词汇量 这将成为我们特征向量的大小 对于每个句子 文档及其所有组成词 我们根据该句子 文档中该词的不存在 存在来放置 0 1 但是 现在我尝试使用每个单词的向量表示 创建全局词汇
  • 生成器不是迭代器吗?

    我有一个生成器 一个产生东西的函数 但是当试图将它传递给gensim Word2Vec我收到以下错误 类型错误 您不能将生成器作为句子参数传递 尝试迭代器 生成器不是迭代器的一种吗 如果没有 我如何从中创建一个迭代器 查看库代码 它似乎只是
  • 如何使用word2vec获取给定单词的单词嵌入向量和上下文向量?

    from gensim models import word2vec sentences word2vec Text8Corpus TextFile model word2vec Word2Vec sentences size 200 mi
  • Gensim:KeyError:“单词不在词汇表中”

    我有一个使用 Python 的 Gensim 库训练过的 Word2vec 模型 我有一个标记化列表 如下所示 词汇量为 34 但我只给出 34 中的几个 b let know buy someth featur mashabl might
  • 在 word2vec Gensim 中获取二元组和三元组

    我目前在我的 word2vec 模型中使用 uni gram 如下所示 def review to sentences review tokenizer remove stopwords False Returns a list of se
  • Gensim LDA 中的主题明智文档分布

    python 有没有办法映射属于某个主题的文档 例如 主要是 主题 0 的文档列表 我知道有多种方法可以列出每个文档的主题 但我该如何反过来呢 Edit 我正在使用以下 LDA 脚本 doc set for file in files ne
  • Gensim 3.8.0 至 Gensim 4.0.0

    我使用 Gensim 3 8 0 训练了 Word2Vec 模型 后来我尝试在GCP上使用Gensim 4 0 o来使用预训练模型 我使用了以下代码 model KeyedVectors load word2vec format wv pa
  • 为什么word2Vec使用余弦相似度?

    我一直在阅读有关 Word2Vec 的论文 例如this one https papers nips cc paper 5021 distributed representations of words and phrases and th
  • 使用 word2vec 嵌入句子

    我想比较不同句子中提到的相同单词的差异 例如 旅行 我想做的是 将提及 旅行 一词的句子视为纯文本 在每个句子中 将 旅行 替换为travel sent x 在这些句子上训练 word2vec 模型 计算 Travel sent1 trav
  • 在 Word2Vec 中合并预训练模型?

    我已经下载了 1000 亿字的 Google 新闻预训练矢量文件 除此之外 我还在训练自己的 3GB 数据 生成另一个预训练的矢量文件 两者都有 300 个特征维度和超过 1GB 的大小 我如何合并这两个巨大的预训练向量 或者我如何训练一个
  • 文本聚类主题建模效率低下

    我尝试使用 LDA 进行文本聚类 但它没有给我不同的聚类 下面是我的代码 Import libraries from gensim import corpora models import pandas as pd from gensim
  • 使用 word2vec 的二元组向量表示

    我想使用 word2vec 工具构建文档的词嵌入 我知道如何找到与单个单词 一元组 相对应的向量嵌入 现在 我想找到二元组的向量 是否可以使用 word2vec 构建二元词嵌入 如果是 怎么办 以下代码片段将为您提供二元组的向量表示 请注意
  • python luigi 意外死亡,退出代码为 -11

    我有一个数据管道luigi如果我让 1 名工人来完成这项任务 效果就非常好 但是 如果我放置 gt 1 个工作线程 那么它会在具有 2 个依赖项的阶段中死亡 意外地退出代码为 11 代码相当复杂 因此很难给出最小的示例 问题的要点是我正在做
  • gensim 错误:导入错误:没有名为“gensim”的模块

    我尝试导入 gensim import gensim 但出现以下错误 ImportError Traceback most recent call last
  • 使用 t-sne 可视化从 gensim 生成的 word2vec

    我使用 gensim 在我自己的语料库上训练了 doc2vec 和相应的 word2vec 我想使用 t sne 和单词来可视化 word2vec 如图所示 图中的每个点也带有 单词 我在这里看了一个类似的问题 word2vec 上的 t
  • 每次我在同一语料库上训练时,LDA 模型都会生成不同的主题

    我正在使用Pythongensim从包含 231 个句子的小语料库中训练潜在狄利克雷分配 LDA 模型 然而 每次我重复这个过程 它都会产生不同的主题 为什么相同的LDA参数和语料每次生成不同的主题 如何稳定话题生成 我正在使用这个语料库
  • 加载 word2vec 时出现 UnicodeDecodeError 错误

    详细描述 我开始使用词嵌入 并发现了大量有关它的信息 到目前为止 我知道我可以训练自己的词向量或使用以前训练过的词向量 例如 Google 或 Wikipedia 的词向量 这些向量可用于英语 但对我来说没有用 因为我正在处理以下语言中的文
  • 下载gensim数据集时出现ValueError

    我想下载 gensim glove wiki gigaword 100 数据集 这是我的代码 import gensim downloader as api model api load glove wiki gigaword 100 但我
  • 将 freebase 向量与 gensim 一起使用

    我正在尝试使用 Google 发布的 freebase 单词嵌入 但我很难从 freebase 名称中获取单词 model gensim models Word2Vec load word2vec format freebase vecto
  • 如何使用 python-pandas 和 gensim 将数据框中的单词映射到整数 ID?

    给定这样一个数据框 包括项目和相应的评论文本 item id review text B2JLCNJF16 i was attracted to this B0009VEM4U great snippers 我想绘制顶部的地图5000最常用

随机推荐