如何在Spacy中为OOV术语指定词向量?

2023-12-06

我有一个预训练的 word2vec 模型,我将其加载到spacy对新单词进行矢量化。给定我执行的新文本nlp('hi').vector获取单词“hi”的向量。

最终,需要对一个新单词进行向量化,该新单词不存在于我的预训练模型的词汇表中。在这种情况下spacy默认为用零填充的向量。我希望能够为 OOV 术语设置此默认向量。

Example:

import spacy
path_model= '/home/bionlp/spacy.bio_word2vec.model'
nlp=spacy.load(path_spacy)
print(nlp('abcdef').vector, '\n',nlp('gene').vector)

此代码输出单词“gene”的密集向量和单词“abcdef”的全 0 向量(因为它不存在于词汇表中):

enter image description here

我的目标是能够指定缺失单词的向量,因此您可以获得(例如)一个充满 1 的向量,而不是为单词“abcdef”获取充满 0 的向量。


如果您只想使用插件向量而不是 SpaCy 默认的全零向量,则可以添加一个额外的步骤,用您的向量替换任何全零向量。例如:

words = ['words', 'may', 'by', 'fehlt']
my_oov_vec = ...  # whatever you like
spacy_vecs = [nlp(word) for word in words]
fixed_vecs = [vec if vec.any() else my_oov_vec 
              for vec in spacy_vecs]

我不确定你为什么要这样做。许多关于词向量的工作只是简单地删除了词汇表之外的词。使用任何插头值,包括 SpaCy 的零向量,可能只会增加无用的噪音。

如果更好地处理 OOV 单词很重要,请注意,其他一些单词向量模型(如 FastText)可以通过使用在训练期间为子单词片段学习的向量来合成 OOV 单词的猜测向量。这类似于人们通常可以从熟悉的词根中找出单词的主旨。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在Spacy中为OOV术语指定词向量? 的相关文章

  • Python 的键盘中断不会中止 Rust 函数 (PyO3)

    我有一个使用 PyO3 用 Rust 编写的 Python 库 它涉及一些昂贵的计算 单个函数调用最多需要 10 分钟 从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理 所以本质上没什么用 最小可重现示例 Ca
  • Django 管理员在模型编辑时间歇性返回 404

    我们使用 Django Admin 来维护导出到我们的一些站点的一些数据 有时 当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时 我们会得到 Django 404 页面 模板 它是偶尔发生的 我们可以通过重新加载三次来重现它
  • 使 django 服务器可以在 LAN 中访问

    我已经安装了Django服务器 可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时 从同一网络下的另一台电脑 my ip
  • Django:按钮链接

    我是一名 Django 新手用户 尝试创建一个按钮 单击该按钮会链接到我网站中的另一个页面 我尝试了一些不同的例子 但似乎没有一个对我有用 举个例子 为什么这不起作用
  • 如何在 Python 中检索 for 循环中的剩余项目?

    我有一个简单的 for 循环迭代项目列表 在某些时候 我知道它会破裂 我该如何退回剩余的物品 for i in a b c d e f g try some func i except return remaining items if s
  • 使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

    我有一个 CSV 文件 我正在使用 Python 来解析该文件 我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
  • python 相当于 R 中的 get() (= 使用字符串检索符号的值)

    在 R 中 get s 函数检索名称存储在字符变量 向量 中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数 尽管花了一些时间翻
  • 如何从网页中嵌入的 Tableau 图表中抓取工具提示值

    我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值 以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例 我从要从中抓取的原始网页中获取了此网址 https covid19 colo
  • SQLALchemy .query:类“Car”的未解析属性引用“query”

    我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案 我使用 Pyt
  • 使用 Tkinter 显示 numpy 数组中的图像

    我对 Python 缺乏经验 第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果 当图像来自 numpy 数组而不是我的 PC 上的文件路径时 我有一个关于在 Tkinter 中显示图像的问题 我为
  • 如何加速Python中的N维区间树?

    考虑以下问题 给定一组n间隔和一组m浮点数 对于每个浮点数 确定包含该浮点数的区间子集 这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树 已经针对一
  • 在Python中获取文件描述符的位置

    比如说 我有一个原始数字文件描述符 我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
  • 向 Altair 图表添加背景实心填充

    I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
  • 每个 X 具有多个 Y 值的 Python 散点图

    我正在尝试使用 Python 创建一个散点图 其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值 如果每个 X 值的 Y 值的数量相同 我可以使用以下代码使其工作 import numpy as np import mat
  • 为字典中的一个键附加多个值[重复]

    这个问题在这里已经有答案了 我是 python 新手 我有每年的年份和值列表 我想要做的是检查字典中是否已存在该年份 如果存在 则将该值附加到特定键的值列表中 例如 我有一个年份列表 并且每年都有一个值 2010 2 2009 4 1989
  • 有人用过 Dabo 做过中型项目吗? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 我们正处于一个新的 ERP 风格的客户端 服务器应用程序的开始阶段 该应用程序是作为 Python 富客户端开发的 我们目前正在评估 Dabo
  • Rocket UniData/UniVerse:ODBC 无法分配足够的内存

    每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
  • 从列表指向字典变量

    假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在 我需要的是一个常规 看到该值后 在 b 的位置内读写一个值 我不喜欢复制变量 我想直接改变变量b的内容 假设b是一个嵌套字典 你可以这样做 reduce di
  • 导入错误:没有名为 site 的模块 - mac

    我已经有这个问题几个月了 每次我想获取一个新的 python 包并使用它时 我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误 实际上 我无法使用任何新软件包 因为每次我
  • NotImplementedError:无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

    张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

  • 没有名为 ogr 的模块

    我正在尝试使用ogr模块 我尝试使用 pip 安装它 但出现错误 找不到满足要求的版本ogr 来自版本 找不到匹配的分布ogr 尝试安装包括 GDAL 在内的所有软件包 但仍然出现错误 没有名为的模块ogr 在谷歌上没有找到可行的解决方案
  • Highcharts 在 IE 中向 SVG 元素添加重复的 xmlns 属性

    我正在使用 Highcharts 在 PHP Web 应用程序中创建图表 问题是 在 IE 中 创建的 SVG 元素最终会出现重复的 xmlns 属性 在F12开发者工具 HTML选项卡中可以看到 click for larger vers
  • 表单提交后/表单提交错误时填写文件输入

    我有一个多部分表单 其中包含默认输入 文本 选择等 和文件上传
  • 使用 jspdf 时转换/规范化特殊字符

    尝试使用jspdf 库 1 4 1将文本转换为 pdf 时 输出有时会变得非常丑陋且难以阅读 因为文本包含一些特殊字符 例如 左边的单引号U 2018 或者正确的一个U 2019 或类似的符号 或者 in Kad k y 我如何清理 规范此
  • 如何在RecyclerView之间随机放置广告?

    我在用着快速适配器在我的应用程序中 我想在其中随机放置广告RecyclerView 例如 就像 3 点之后的广告RecyclerView然后是 4 之后的项目 然后是 2 之后的项目 依此类推 这就是我使用 FastAdapter 的方式
  • 如何获得使用System.Diagnostics.Process.GetProcess(string)的权限?

    我正在使用 Microsoft Visual Studio 制作一个简单的远程任务管理器以供体验 我想用Process GetProcesses string 但存在访问被拒绝的异常 不允许我获取远程计算机进程 事实上这是正常的 因为我们应
  • CertPathBuilderException:无法找到有效的证书路径是 8.5 网络部署

    我在 Websphere 8 5 上部署的 Web 应用程序 java 中有一个 Web 服务客户端 当我在 Web 服务的调用中将协议从 http 更改为 https 后 使用自签名证书部署 出现以下错误 javax net ssl SS
  • 使用 SHA1 和 RSA 与 java.security.Signature 对比 MessageDigest 和 Cipher

    我试图理解Java是什么java security Signature类确实如此 如果我计算 SHA1 消息摘要 然后使用 RSA 加密该摘要 我会得到与询问不同的结果签名类来签署相同的东西 Generate new key KeyPair
  • 仅创建过程权限

    我在开发数据库中有 SQL Server 2008 的需求 只有 DBA 数据库所有者 才能创建 更改表 开发人员不应创建或更改表 开发人员可以创建 更改存储过程 用户定义函数 在 dbo 模式中并且可以执行 SP UDF 开发人员应该对表
  • SQL 中按日期排序

    我有一个资源表 其中一个字段是数据类型为日期的日期字段 我想要以下输出 当前月份记录 比如五月 年份并不重要 然后是以下内容 再次假设五月是当月 六月记录 七月记录 八月唱片 九月记录 十月记录 十一月记录 十二月记录 一月记录 二月记录
  • 我可以只为 div 的背景图像设置不透明度吗?

    假设我有 div class myDiv Hi there div 我想放一个background image并给它一个opacity of 0 5 但我希望我写的文字完全不透明 1 如果我像这样写CSS myDiv opacity 0 5
  • java中的叠加图像

    我希望你能给我一些建议来解决我的问题 我需要在按钮上叠加许多图像 但问题是 这是基础图像 牙齿 http i imgur com 7tIcP gif 我的第一张图片是这样的 https i stack imgur com zPaH9 gif
  • 如何在 JavaScript 中第一次出现多个子字符串之一时分割字符串?

    给定字符串 s1 abcfoodefbarghi and s2 abcbardefooghi 如何将 s1 拆分为 abc 和 defbarghi 和 s2 到 abc 和 defooghi 即 在字符串 foo 或 bar 第一次出现时将
  • 如何对相机图像应用效果?

    我们如何将棕褐色滤镜等效果应用于相机图像 在此网址中了解基本想法http www riagora com 2010 07 android air and the camera 然后参考android Graphics 它可以帮助您了解Blu
  • 进行媒体查询的最佳方式[关闭]

    Closed 这个问题是基于意见的 目前不接受答案 在 HTML 中放置媒体查询的最佳方式是什么 在同一个 CSS 文件中 例如 my text font size 30px media only screen and max width
  • 使 GridView 页脚在没有数据绑定时可见

    当gridview中没有数据时如何显示页脚以从页脚插入数据 最简单的方法是绑定一个长度为 1 的数组 您可以在其中添加任何您喜欢的内容来标识这是一个虚拟行 在 GridViews RowDataBound 方法中检查数据项是否为虚拟行 在尝
  • PHP:使用外部数据执行 ORDER BY?

    嘿大家 长话短说 如果您不介意向这位 PHP 新手伸出援手的话 我有一个名为 类别 的数据库字段 其中存储了以下内容 Fruit People Place Animals Landscape 我在数据库中还有一个单独的表 其中每个项目的字段
  • Mac OS 上的 Java 随机变慢

    我有一个 Java 程序 用于跨多个处理器进行一组科学计算 方法是将其分成多个部分并在不同的线程中运行每个部分 该问题是可以简单划分的 因此线程之间不存在争用或通信 他们访问的唯一公共数据是一些不需要同步访问的共享静态缓存 以及硬盘驱动器上
  • 使用批处理文件修改文件内容

    我需要创建一个批处理文件 使用它我们可以修改文件的内容 例如 Testing txt 文件包含一行 描述 MAN Human 改成 描述 MAN Human V2 仅在 MAN 末尾添加 V2 因此 当我们打开文件时 我们会看到描述名称 M
  • 如何在Spacy中为OOV术语指定词向量?

    我有一个预训练的 word2vec 模型 我将其加载到spacy对新单词进行矢量化 给定我执行的新文本nlp hi vector获取单词 hi 的向量 最终 需要对一个新单词进行向量化 该新单词不存在于我的预训练模型的词汇表中 在这种情况下