SpaCy 模型“en_core_web_sm”的词汇量大小

2024-05-03

我尝试在 SpaCy 小模型中查看词汇量：

model_name="en_core_web_sm"

nlpp=spacy.load(model_name)

len(list(nlpp.vocab.strings))

只给了我 1185 个单词。我也在同事的机器上进行了尝试，并给出了不同的结果（1198 和 1183）。

难道只有这么小的词汇量才能训练词性标注吗？当我在数据集中使用它时，我丢失了很多单词。为什么不同机器的字数不同？

Thanks!

词汇表是动态加载的，因此当您第一次加载词汇表时，StringStore 中并没有所有单词。如果您尝试以下操作，您可以看到这一点...

>>> import spacy
>>> nlp = spacy.load('en_core_web_sm')
>>> len(nlp.vocab.strings)
1180
>>> 'lawyer' in nlp.vocab.strings
False
>> doc = nlp('I am a lawyer')
>>> 'lawyer' in nlp.vocab.strings
True
>>> len(nlp.vocab.strings)
1182

像这样从原始文件中加载词汇表可能是最简单的。

>>> import json
>>> fn = '/usr/local/lib/python3.6/dist-packages/spacy/data/en/en_core_web_sm-2.0.0/vocab/strings.json'
>>> with open(fn) as f:
>>>     strings = json.load(f)
>>> len(strings)
78930

请注意，上述文件位置适用于 Ubuntu 18.04。如果您使用的是 Windows，则会有一个类似的文件，但位于不同的位置。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

NLP

datascience

spacy

SpaCy 模型“en_core_web_sm”的词汇量大小的相关文章

使用 glmnet 纠正 n 个数据集上的 n 个 LASSO 回归的输出（严格来说是所选的特征/变量）

注意这是对上一个问题 https stackoverflow com questions 75006466 how to replicate my results from running n lassos iteratively usi
使用决策树

我知道 tl dr 我将尝试解释我的问题而不会用大量蹩脚的代码来打扰您我正在做一项学校作业我们有蓝精灵的图片我们必须通过前景背景分析来找到它们我有一个 Java 决策树其中包含所有数据 HSV 直方图 1 一个节点然后尝试找到
sklearn.model_selection.train_test_split 示例中的“随机状态”是什么？ [复制]

这个问题在这里已经有答案了有人能给我解释一下吗random state在下面的例子中意味着什么 import numpy as np from sklearn model selection import train test split
使用 sklearn 进行稀疏主成分分析

我正在尝试从中复制一个应用程序paper https people eecs berkeley edu elghaoui Pubs SPCAhandbookSV pdf 作者下载的地方20个新闻组 http scikit learn org
文本摘要评估 - BLEU 与 ROUGE

根据两个不同摘要系统 sys1 和 sys2 的结果和相同的参考摘要我使用 BLEU 和 ROUGE 对它们进行了评估问题是 sys1 的所有 ROUGE 分数均高于 sys2 ROUGE 1 ROUGE 2 ROUGE 3 ROUGE
尝试校准keras模型

我正在尝试通过 Sklearn 实现来校准我的 CNN 模型CalibratedClassifierCV 尝试将其包装为KerasClassifier并覆盖预测功能但没有成功有人可以说我做错了什么吗这是模型代码 def create m
如何创建简单的梯度下降算法

我正在研究简单的机器学习算法从简单的梯度下降开始但在尝试用 python 实现它时遇到了一些麻烦这是我试图重现的示例我获得了有关房屋的数据居住面积以英尺为单位和卧室数量以及最终的价格居住面积英尺2 2104 卧室 3 价
期望最大化抛硬币的例子

我最近一直在自学期望最大化并在这个过程中给自己举了一些简单的例子 http cs dartmouth edu cs104 CS104 11 04 22 pdf http cs dartmouth edu cs104 CS104 11 04
NLTK 可用的停用词语言

我想知道在哪里可以找到 NLTK 停用词支持的语言及其键的完整列表我找到一个列表https pypi org project stop words https pypi org project stop words 但它不包含每个国家
无法从 DenseVariational 获得合理的结果

我正在尝试使用以下大小的数据集正弦曲线进行回归问题500 首先我尝试使用 2 个密集层每个层有 10 个单元 model tf keras Sequential tf keras layers Dense 10 activation
神经网络的激活函数选择[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我们可以对神经网络的隐藏层和输出层使用不同的激活函数吗使用这种方案有什么明显的优势吗对于网络的最后一层激活单元也取决于任务分类
深度学习和传统的人工神经网络机器学习有什么区别？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案您能否简要解释一下两者之间的差异深度学习 https developer nvidia com deep learning和利用神经网
我的训练和验证代码（张量流）是否正确以及模型是否过度拟合？

这是我的代码 for it in range EPOCH 24410 BATCH SIZE tr pa tr sp sess run tr para tr spec train loss sess run loss fw op feed d
使用 NLP 进行句子压缩 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案使用机器翻译我可以获得一个句子的非常压缩的版本例如我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖
使用 scikit-learn 在朴素贝叶斯分类器中混合类别数据和连续数据

我正在使用 Python 中的 scikit learn 开发分类算法来预测某些客户的性别除此之外我想使用朴素贝叶斯分类器但我的问题是我混合了分类数据例如在线注册接受电子邮件通知等和连续数据例如年龄长度会员资格等
在 GPU 上训练时如何处理非确定性？

在调整超参数以使模型性能更好时我注意到每次运行代码时获得的分数以及创建的模型都是不同的尽管修复了随机操作的所有种子如果我在CPU上运行就不会出现这个问题我搜索了一下发现这是使用 GPU 训练时的常见问题这是一个非常好的详细
使用 NLTK 生成字典以将推文分类为预定义类别

我有一个 Twitter 用户 screen names 列表我需要根据他们的兴趣领域将他们分为 7 个预定义类别教育艺术体育商业政治汽车技术我用 Python 提取了用户的最后 100 条推文并在清理推文后为每个用户创
地图应用的聚类算法

我正在研究地图上的聚类点纬度经度对于快速且可扩展的合适算法有什么建议吗更具体地说我有一系列纬度经度坐标和一个地图视口我正在尝试将靠近的点聚集在一起以消除混乱我已经有了解决问题的方法 see here http bouldr
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
matlab中的正则逻辑回归代码

我正在尝试正则化 LR 在 matlab 中使用以下公式很简单成本函数 J theta 1 m sum y i log h x i 1 y i log 1 h x i lambda 2 m sum theta j 梯度 J theta t

随机推荐

类型错误：req.logIn 不是函数 - Passport JS

我很确定这不是一个错误因为谷歌搜索没有发现任何结果我正在使用 Passport JS 和本地策略在我的登录路线上我使用自定义回调并在确定用户存在后调用 req login 因为文档显示请注意当使用自定义回调应用程序有责任建
如何在外部浏览器中打开 Android 应用程序中的链接？

任何人都可以帮助我在代码中打开外部浏览器或其他 Android 应用程序中的链接吗现在的情况是链接在应用程序本身中打开但如果该链接属于 Android 应用程序则无法打开它显示安装 Android 应用程序所以我希望如果链接可以在
如何设置属性选择器的值 Expression>

我需要使用模式工厂的想法将 Person 类实体中的实体属性 Address 与 FactoryEntities 类中的表达式 linq 相关联看看这就是我所拥有的并且我想要做的 Address address new Address a
获取发送 cURL 请求的用户的 IP 地址

我想获取使用 php 中的 cURL POST 方法向我的服务器发送请求的用户的 IP 地址我正在开发一个 Flight API 我将使用 cURL POST 方法获取请求我必须获取客户端的 IP 地址并验证他的 IP 地址是否可用如
Inno Setup：如何在选中的复选框上显示（隐藏/取消隐藏）密码

我在输入查询页面中添加了一个复选框以便在选中时使用它向我显示未发现的密码但我不知道该怎么做我已经创建了以下过程但这个过程并没有改变我添加输入时的 true false 值此过程添加了我完成这项工作的新文本框请你帮助我好吗 pro
社交登录重复帐户冲突

我正在制作一个新应用程序除了常规电子邮件密码注册之外还需要多个社交注册但是有一种特殊情况可能会导致数据完整性问题例子用户在 Facebook 上注册但没有收到任何电子邮件回复我在数据库中创建一个用户将电子邮件和密码设置为
在 WinForms 中显示输入对话框

我想在我的 WinForm 应用程序中显示输入模式我浏览过网络但没有找到执行此操作的良好模式我知道我必须创建另一个表单并使用 ShowDialog 方法你是对的请注意模式对话框在关闭时不会自动处理与非模式对话框不同因此您需
Python 对象属性 - 访问方法

假设我有一个具有某些属性的类在 Pythonic OOP 中如何访问这些属性是最好的就像obj attr 或者也许编写 get 访问器此类事物可接受的命名风格是什么 Edit 您能否详细说明使用单下划线或双前导下划线命名属性的最佳实
在 MS Excel 中为字符分配一个值并执行字符串（具有字符）的数学函数（+、-、*、/）

我想根据给定字符串 ABCDEF 的预分配值对其进行求和即首先我想为每个字符分配值然后计算具有预先分配的字符的字符串的总值 excel中可以实现这个功能吗例如在下面 A 2 B 5 C 8 D 1 E 1 F 2 sum of AB
如何在primefaces中文件上传期间传递参数[重复]

这个问题在这里已经有答案了我使用 jsf2 0 和 primfaces 并使用 p fileupload 上传照片这里我需要在支持 bean 中传递参数因为没有通过 p fileupload 传递参数的选项我也使用了绑定选项但它在
Java 接口合成方法生成，同时缩小返回类型

我有 2 个接口和 2 个返回类型 interface interfaceA Publisher
修改功能；保存到 Lisp 中的新函数

所以我认为 lisp 在其他语言中的优点之一是它能够实现函数工厂接受函数作为参数返回新函数我想使用此功能对函数进行小的更改并将其保存为新函数这样如果对原始函数进行更改它们也会反映在它所基于的新函数中注意我不是编写原始函数的人
QDomDocument 无法设置带有标记的 HTML 文档的内容

当我使用QDomDocument对于 HTML 内容如果存在则无法设置内容在文档的开头但实际上为什么例如考虑以下代码片段 QDomDocument doc QString content a href bar foo a qDebu
用于检索编辑距离接近的字符串的数据结构

例如从一组英语单词开始是否有一种结构算法允许使用单词 right 作为查询来快速检索诸如 light 和 tight 之类的字符串即我想检索与查询字符串编辑距离较小的字符串 The BK tree http blog notdot
删除鼠标悬停时的 Vue 自定义过滤器

我想使用 VueJS 2 删除鼠标悬停时的截断过滤器这是模板中的过滤器 div class eng word english truncate div 这是过滤器本身 filters truncate function value let
在 Spring 集成中借助 mongo 入站适配器对数据进行分页

我正在使用 mongo 入站适配器从 mongo 检索数据目前我正在使用以下配置
如何在插件场景中实现程序集绑定重定向？

我有一个plugin P延伸和application A NET40 我无法控制 P 程序集 NET40 有一个shared dependency D NET35 P和D都依赖于FSharp Core 但版本不同 P是针对FSharp Co
在 Excel VBA 中使用 getElementsByClassName

下面是我正在使用的代码但我收到此错误对象不支持此属性或方法使用时getElementsByClassName 我正在使用的新 2 变量没有被填充请帮助我如果我做错了请告诉我 Sub PopulateTasks Variable
如何在应用程序级别管理只读数据库连接

我们使用的是Java Spring Ibatis MySql 有没有办法利用这些技术在应用程序级别管理只读连接我希望在只读 MySql 用户的基础上添加额外的保护层如果 BasicDataSource 或 SqlMapClientTem
SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同

SpaCy 模型“en_core_web_sm”的词汇量大小

SpaCy 模型“en_core_web_sm”的词汇量大小 的相关文章

随机推荐

热门标签

SpaCy 模型“en_core_web_sm”的词汇量大小的相关文章