Gensim：KeyError：“单词不在词汇表中”

2023-12-28

我有一个使用 Python 的 Gensim 库训练过的 Word2vec 模型。我有一个标记化列表，如下所示。词汇量为 34，但我只给出 34 中的几个：

b = ['let',
 'know',
 'buy',
 'someth',
 'featur',
 'mashabl',
 'might',
 'earn',
 'affili',
 'commiss',
 'fifti',
 'year',
 'ago',
 'graduat',
 '21yearold',
 'dustin',
 'hoffman',
 'pull',
 'asid',
 'given',
 'one',
 'piec',
 'unsolicit',
 'advic',
 'percent',
 'buy']

Model

model = gensim.models.Word2Vec(b,min_count=1,size=32)
print(model) 
### prints: Word2Vec(vocab=34, size=32, alpha=0.025) ####

如果我尝试通过这样做来获得相似度分数model['buy']从列表中的一个单词中，我得到

KeyError：“词汇‘购买’不在词汇中”

你们能否建议我我做错了什么，以及检查模型的方法是什么，该模型可以进一步用于训练 PCA 或 t-sne，以便可视化形成主题的相似单词？谢谢。

第一个参数传递给gensim.models.Word2Vec是句子的可迭代。句子本身就是单词列表。来自文档：

从可迭代对象初始化模型sentences。每个句子都是一个将用于训练的单词（unicode 字符串）列表。

现在，它认为列表中的每个单词b是一个句子，所以它正在做Word2Vec对于每个特点在每个单词中，而不是在你的每个单词中b。现在你可以这样做：

model = gensim.models.Word2Vec(b,min_count=1,size=32)

print(model['a'])
array([  7.42487283e-03,  -5.65282721e-03,   1.28707094e-02, ... ]

要使其适用于单词，只需将其换行即可b在另一个列表中，以便正确解释：

model = gensim.models.Word2Vec([b],min_count=1,size=32)

print(model['buy'])
array([-0.01331611,  0.00496594, -0.00165093, -0.01444992,  0.01393849, ... ]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

gensim

Word2Vec

topicmodeling

Gensim：KeyError：“单词不在词汇表中” 的相关文章

(discord.py) 尝试更改成员角色时，“用户”对象没有属性“角色”

因此我正在尝试编写一个机器人让某人在命令中指定的主持人指定的一段时间内暂停角色我知道该变量称为小时即使它目前以秒为单位我稍后会解决这个问题基本上它是由主持人在消息暂停 personmention numberofhours
Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
下载 PyQt6 的 Qt Designer 并使用 pyuic6 将 .ui 文件转换为 .py 文件

如何下载 PyQt6 的 QtDesigner 如果没有适用于 PyQt6 的 QtDesigner 我也可以使用 PyQt5 的 QtDesigner 但是如何将此 ui 文件转换为使用 PyQt6 库而不是 PyQt5 的 py 文件
如何在刻度标签和轴之间添加空间

我已成功增加刻度标签的字体但现在它们距离轴太近了我想在刻度标签和轴之间添加一点呼吸空间如果您不想全局更改间距通过编辑 rcParams 并且想要更简洁的方法请尝试以下操作 ax tick params axis both whic
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

使 JButton 在 JTable 内可单击

这是我想做的事情的屏幕截图发生的情况是 JButton 显示正确但当我单击它时没有任何反应经过一番搜索我发现Object由返回table getValueAt 是一个字符串而不是 JButton 这是代码 tblResult new
是否有“纯粹适用的任一”的标准名称或实现？

我经常发现我所谓的纯粹应用性的用处Either i e Either与Applicative只要我们不实现一个实例就可用Monad实例也是如此 newtype AEither e a AEither unAEither Either e
使用可变批量大小加载数据？

我目前正在研究基于补丁的超分辨率大多数论文将图像分割成更小的补丁然后使用这些补丁作为模型的输入我能够使用自定义数据加载器创建补丁代码如下 import torch utils data as data from torchvisio
基于列合并数据框，仅保留第一个匹配项

我有 2 个如下所示的数据框 df 1 Index Fruit 1 Apple 2 Banana 3 Peach df 2 Fruit Taste Apple Tasty Banana Tasty Banana Rotten Peach R
防止违反 PCI 标准暴露敏感数据 - response.getWriter().write(xml.toString())

我正在根据代码审计报告修复代码它针对具有语法的行显示防止敏感数据的暴露 response getWriter write xml toString 整个代码如下 String alertId request getParameter a
我可以不映射/平面映射一个OptionalInt吗？

为什么好像没有map flatMap OptionalInt 或其他原始可选风格的方法 The stream 映射操作允许对象和基元之间的转换但为什么Optional不利用这一点呢 OptionalInt profileId Option
何时在 JavaScript 中对对象使用 const？

我最近读到了有关 ES6 的文章const关键字当有这样的东西时我可以理解它的重要性 function const PI 3 14 PI 3 15 Uncaught TypeError Assignment to constant var
Perl 正则表达式从哈希替换

有没有一种有效的方法可以使用 Perl 散列中的值替换一堆字符串例如 regex foo bar regex hello world regex python perl open F myfile txt while
有没有办法让函数接受任何具有 String rawValue 的 Enum 类型？

我想出的一种方法是制定一个其他枚举必须遵守的协议 protocol StringRepresentable var rawValue String get struct Endpoint enum User String StringRep
将字典保存到文件（numpy 和 Python 2/3 友好）

我想在Python中进行分层键值存储这基本上可以归结为将字典存储到文件中我指的是任何类型的字典结构可能包含其他字典 numpy 数组可序列化的 Python 对象等等不仅如此我希望它能够存储经过空间优化的 numpy 数组并在
FileUpload - 如果文件名存在，则在名称末尾的括号之间连接一个数字

我想将文件一次一个上传到文件夹 GetUniqueName函数下面提到将返回一个唯一的文件名这是我用来执行此操作的代码 public static string GetUniqueName string fileName stri
Three.js：在普通桌面上保持 60 FPS 的上限是多少？

我目前正在使用 Three js 开发一款游戏我已经学习软件工程四年了并在后端专业工作了两年但除了一些简单的 Unity 实验之外我几乎没有接触过图形根据 renderstats js 我目前有大约 22 000 个顶点和大约 8
右对齐数据表列中的单元格内容

我想右对齐outputText值即下面的fee TableAmount 并且我想保持该列的标题居中我必须将什么参数传递给下面的outputText才能实现此目的
Web API 性能？

我刚在想 The WebApi随着routing mechanism以这样的方式工作它读取http verb GET POST 等然后搜索匹配的方法名称参数例如 If it s GETURI 是api Customers 5 方法应
StringBuilder.Append 与 StringBuilder.AppendFormat

我想知道 StringBuilder 的情况并且有一个问题希望社区能够解释让我们忘记代码的可读性其中哪一个是faster为什么 StringBuilder Append StringBuilder sb new StringBuild
android 4.x 上的输入元素在聚焦时无法设置样式

Update 有一个修复 webkit user modify read write plaintext only 原问题我试图将其归结为一个简单的例子我有一个像这样的简单输入元素
使用 NSOpenGLLayer 从单独的线程中绘制

我正在开发一个应用程序它需要使用 OpenGL 进行绘制刷新率至少等于显示器的刷新率我需要在单独的线程中执行绘图以便绘图永远不会被激烈的 UI 操作锁定实际上我正在使用NSOpenGLView结合CVDisplayLink我可以毫
未捕获的类型错误：无法读取未定义的属性“localStorage”

我在backbonejs应用程序中有以下内容 MODEL var app app ledger Backbone Model extend COLLECTION app ledgerList Backbone Collection exte
控件库的 WPF 样式

我有一个图书馆 Styles DLL 其中包含带键的 WPF 集合Styles 我有一个班级图书馆 Module DLL 其中包含多个Windows and UserControls可以在各种应用程序之间共享我用的是带键的Styles定义
Gensim：KeyError：“单词不在词汇表中”

我有一个使用 Python 的 Gensim 库训练过的 Word2vec 模型我有一个标记化列表如下所示词汇量为 34 但我只给出 34 中的几个 b let know buy someth featur mashabl might

Gensim：KeyError：“单词不在词汇表中”

Gensim：KeyError：“单词不在词汇表中” 的相关文章

随机推荐

热门标签