我有一个使用 Python 的 Gensim 库训练过的 Word2vec 模型。我有一个标记化列表,如下所示。词汇量为 34,但我只给出 34 中的几个:
b = ['let',
'know',
'buy',
'someth',
'featur',
'mashabl',
'might',
'earn',
'affili',
'commiss',
'fifti',
'year',
'ago',
'graduat',
'21yearold',
'dustin',
'hoffman',
'pull',
'asid',
'given',
'one',
'piec',
'unsolicit',
'advic',
'percent',
'buy']
Model
model = gensim.models.Word2Vec(b,min_count=1,size=32)
print(model)
### prints: Word2Vec(vocab=34, size=32, alpha=0.025) ####
如果我尝试通过这样做来获得相似度分数model['buy']
从列表中的一个单词中,我得到
KeyError:“词汇‘购买’不在词汇中”
你们能否建议我我做错了什么,以及检查模型的方法是什么,该模型可以进一步用于训练 PCA 或 t-sne,以便可视化形成主题的相似单词?谢谢。