如何使用动词时态/语气制作稀疏匹配器模式？

2024-05-22

我一直在尝试使用动词时态和情绪为 spacy 匹配器创建一个特定的模式。
我发现了如何使用 model.vocab.morphology.tag_map[token.tag_] 访问使用 spacy 解析的单词的形态特征，当动词处于虚拟语气模式（我感兴趣的模式）时，它会打印出这样的内容：

{'Mood_sub'：正确，'Number_sing'：正确，'Person_third'：正确，'Tense_pres'：正确，'VerbForm_fin'：正确，74：100}

但是，我想要一种像这样的模式来重新标记特定的动词短语：模式 = [{'TAG':'Mood_sub'}, {'TAG':'VerbForm_ger'}]

对于像“Que siga aprendiendo”这样的西班牙语短语，“siga”的标签中具有“Mood_sub”= True，而“aprendiendo”的标签中具有“VerbForm_ger”= True。但是，匹配器未检测到此匹配。

谁能告诉我这是为什么以及如何解决它？这是我正在使用的代码：

model = spacy.load('es_core_news_md')
text = 'Que siga aprendiendo de sus alumnos'
doc = model(text)
pattern = [{'TAG':'Mood_sub'}, {'TAG':'VerbForm_ger'}] 
matcher.add(1, None, pattern)
matches = matcher(doc)
for i, start, end in matches:
    span = doc[start:end]
    if len(span) > 0:
       with doc.retokenize() as retokenizer:
            retokenizer.merge(span)

The morphspacy v2 中尚未完全实现支持，因此无法使用直接变形值，例如Mood_sub.

相反，我认为最好的选择是Matcher是使用REGEX超过合并/扩展TAG价值观。它不会特别优雅，但它应该可以工作：

import spacy
from spacy.matcher import Matcher

nlp = spacy.load('es_core_news_sm')
doc = nlp("Que siga aprendiendo de sus alumnos")
assert doc[1].tag_ == "AUX__Mood=Sub|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin"
matcher = Matcher(nlp.vocab)
matcher.add("MOOD_SUB", [[{"TAG": {"REGEX": ".*Mood=Sub.*"}}]])
assert matcher(doc) == [(513366231240698711, 1, 2)]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用动词时态/语气制作稀疏匹配器模式？的相关文章

gensim如何计算doc2vec段落向量

我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出段落向量和词向量被平
是否可以将 SpaCy 安装到 Raspberry Pi 4 Raspbian Buster

我一整天都在安装 SpaCy sudo pip install U spacy Looking in indexes https pypi org simple https www piwheels org simple Collectin
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
区分大小写的实体识别

我的关键字全部以小写形式存储例如折扣耐克鞋我正在尝试对其执行实体提取我遇到的问题是 spaCy 在 NER 方面似乎区分大小写请注意我不认为这是 spaCy 特有的当我跑步时 doc nlp u i love nike sho
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
PHP 和 NLP：嵌套括号（解析器输出）到数组？

想要将带有嵌套括号的文本转换为嵌套数组以下是 NLP 解析器的输出示例 TOP S NP PRP I VP VBP love NP NP DT a JJ big NN bed PP IN of NP NNS roses 原文我喜欢一大床
给定文档，选择相关片段

当我在这里提出问题时自动搜索返回的问题的工具提示给出了问题的前一点但其中相当一部分没有给出任何比理解问题更有用的文本标题有谁知道如何制作一个过滤器来删除问题中无用的部分我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子例如
如何使用动词时态/语气制作稀疏匹配器模式？

我一直在尝试使用动词时态和情绪为 spacy 匹配器创建一个特定的模式我发现了如何使用 model vocab morphology tag map token tag 访问使用 spacy 解析的单词的形态特征当动词处于虚拟语气模式
获取 NLTK 索引的所有结果

我正在使用 NLTK 来查找单词的一致性但我不知道如何获取所有结果并将它们放入list or set 例如 text concordance word 仅打印前 25 个结果 TL DR text concordance lines 10
Java文本输出中的UTF-8编码问题

我一直致力于测试高棉语 Unicode Wordbreaker 的各种解决方案高棉语单词之间没有空格这使得拼写检查和语法检查变得困难以及从旧高棉语转换为高棉语 Unicode 我得到了一些源代码现在在线 http www white
nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究
Java 中的自然语言处理 (NLP) [重复]

这个问题在这里已经有答案了可能的重复 Java 有没有好的自然语言处理库 https stackoverflow com questions 870460 java is there a good natural language pro
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
文本摘要评估 - BLEU 与 ROUGE

根据两个不同摘要系统 sys1 和 sys2 的结果和相同的参考摘要我使用 BLEU 和 ROUGE 对它们进行了评估问题是 sys1 的所有 ROUGE 分数均高于 sys2 ROUGE 1 ROUGE 2 ROUGE 3 ROUGE
Python NLP 英式英语与美式英语

我目前正在用Python 进行NLP 工作然而在我的语料库中既有英式英语也有美式英语实现实现我正在考虑将英式英语转换为美式英语但是我没有找到一个好的工具包来做到这一点有什么建议么我也找不到包但试试这个请注意我必须
如何使用Bert进行长文本分类？

我们知道 BERT 有 token 的最大长度限制 512 因此如果一篇文章的长度远大于 512 例如文本中有 10000 个 token 如何使用 BERT 您基本上有三个选择您可以剪掉较长的文本并仅使用前 512 个令牌最初的 BE
Spacy提取特定名词短语

我可以在 python 中使用 spacy 来查找具有特定邻居的 NP 吗我想要文本中前后都有动词的名词短语您可以合并名词短语这样它们就不会单独标记化分析依存解析树查看相邻标记的 POS gt gt gt import spacy
spacy 是否将令牌列表作为输入？

我想使用 spacy 的 POS 标记 NER 和依存解析而不使用单词标记化事实上我的输入是代表一个句子的标记列表我想尊重用户的标记化无论是使用 spacy 还是任何其他 NLP 包这是否可能现在我使用这个基于 spacy
无法在配备arm M1的Macbook上安装spaCy

尝试使用 pip 在 M1 Mac 上安装 spaCy pip install spacy apple 出现错误 pip subprocess to install build dependencies did not run succes

随机推荐

无法在 Unix shell 脚本上操作日期（日期：非法选项 -- d）

我需要将当前日期添加 10 天并将其分配给变量但我收到错误 date illegal option d 这是我尝试过的 gt NEW expration DATE date d 10 days Result date illegal op
计算字符串中每个字符出现的次数

我想使用 JavaScript 计算给定字符串中每个字符的出现次数例如 var str I want to count the number of occurrences of each char in this string 输出应该是
是什么导致 Java（冰雹序列）在我的程序中崩溃

我制作了一个执行通常称为冰雹序列的程序该程序基本上执行以下操作创建一个int 值并为其分配一个值如果 int 是偶数则将其除以二如果 int 为奇数则将其乘以三并加一继续这个过程直到 n 等于 1 它似乎适用于大多数数
无需路径修改即可构建 Python 项目

我有一个在多个项目中使用的共享 python 库因此结构如下所示 Project1 main py lt One of the projects that uses the library sharedlib init py ps lib
哪些 git hooks 适用于“git rebase --continue”？

我正在尝试为我的组织构建一组 git hook 脚本我想使用的一个脚本仅用于我自己的多个项目将是检查git rebase continue我的代码中没有留下任何冲突标记 lt lt lt lt lt or gt gt gt gt gt
嵌套模板类的 C++ 非成员函数

我一直在编写几个包含嵌套迭代器类的类模板需要进行相等比较我认为这是相当典型的比较是与非会员和非朋友进行的operator 功能这样做时我的编译器我使用带有标志的 Mingw32 GCC 4 4 O3 g Wall 未能找到该
以编程方式更改 StackPanel 在 Canvas 上的位置

我在画布上有堆栈面板堆栈面板有
为什么我的自定义类没有出现在 Interface Builder 的下拉列表中？

我正在使用 Interface Builder 和 Storyboards 来构建我的应用程序我正在尝试将我的源代码连接到我的UIViewController在 Storyboard 中但我的类都没有显示在自定义类下拉菜单中这种情
区分块和对象初始值设定项

这更多的是一个理论问题而不是一个实际问题这是关于解析一些由大括号分隔的代码这是两个例子对象初始值设定项 http es5 github io x11 1 5 f a 3 这是两个例子blocks http es5 github io
如何为“%abc%”搜索创建文本索引？

我想对查询进行索引x like abc 如果我有一个如下表 create table t data varchar 100 我想创建一个索引以便能够有效地执行以下操作 select from t where contains abc 和这个
Java NoSuchMethodException - 类中确实存在方法

我正在构建一个 JavaFx 应用程序我想创建一个接收 GridPane 和 Node 以及添加到窗格中的项目数量的方法但是当我调用该方法时我收到 NoSuchMethodException 作为测试我尝试创建一个简单的方法pri
如何在 Python 中创建多个（但单独的）空列表？

我编写了一个脚本该脚本有时会生成一堆空列表应用具有以下结构的代码 A B C D 产生输出 A B C D 现在的情况是每次使用不同的数据集作为输入时我都必须手动修改字母我希望能够实现自动化我想过这样做 FieldList A
如何关闭“您确定要离开此页面”的提示吗？

我正在使用 C Selenium WebDriver 我想关闭 chrome 警告例如禁用是否确定离开此页面警报下面的代码都不起作用您可以帮助解释代码 private void Form1 Load object sender
自定义模板化 ASP.NET 控件的双向数据绑定

这个问题最初是关于让双向绑定工作的但由于缺乏具体的答案和其他方面的进展我一直在更新它你可以检查编辑历史记录但我认为这对于明晰下面列出的代码允许将单个对象双向数据绑定到模板化控件我想以最简单的方式扩展此示例以允许针对最根对象的复
如何使用 Python 通过 Firebase 的 Lambda 发送推送通知

我正在尝试通过 AWS Lambda 从 Firebase Cloud Message 发送推送通知 API 响应授权错误导入请求导入 json def lambda handler event context message even
角度+ firebase auth +材料=路由器崩溃

Firebase 身份验证后路由器无法正常工作问题来自 angular animations 导入 NoopAnimationsModule 或 BrowserAnimationsModule 路由器无法正常工作包 json depen
获取 CKEditor 内容？ - jQuery

我的 CKEditor 代码是 window onload function var editor CKEDITOR replace big info CKEDITOR config height 330px CKEDITOR config
有没有办法导入/导出容器绑定脚本

我有一个插件它使用 appscripts gs 以及 html js 和 css 文件目前我们所做的是我们有一个参考 Google 文档其中有一个脚本项目包含所有这些源代码但是除了手动复制和粘贴之外没有办法在 GIT 中保留源代码
在按钮下方显示模式 -React Native

我们可以在原生 android 中保留一个组件如某些组件 id 的layout below 中所示我们如何在 React Native 中做到这一点假设我有一个模式或警报框我希望它在单击时显示在特定按钮的正下方我怎样才能做到这一点
如何使用动词时态/语气制作稀疏匹配器模式？

我一直在尝试使用动词时态和情绪为 spacy 匹配器创建一个特定的模式我发现了如何使用 model vocab morphology tag map token tag 访问使用 spacy 解析的单词的形态特征当动词处于虚拟语气模式

如何使用动词时态/语气制作稀疏匹配器模式？

如何使用动词时态/语气制作稀疏匹配器模式？ 的相关文章

随机推荐

热门标签

如何使用动词时态/语气制作稀疏匹配器模式？的相关文章