如何使用 CoreNLP 的 RegexNER 检测具有超过 1 个单词的命名实体？

2024-02-06

我在 CoreNLP 中使用 RegexNER 注释器，我的一些命名实体由多个单词组成。摘自我的映射文件：

RAF 抑制剂 DRUG_CLASS

吉尔伯特综合症疾病

第一个被检测到，但每个单词都获得注释 DRUG_CLASS 并且似乎没有办法链接这些单词，就像两个单词都有的 NER id 一样。

第二种情况根本没有被检测到，这可能是因为标记器将 Gilbert 后面的撇号视为单独的标记。由于 RegexNER 将标记化作为依赖项，因此我无法真正绕过它。

有什么建议来解决这些情况吗？

如果您使用entitymentions注释器将使用相同的 ner 标签从连续标记中创建实体提及。缺点是，如果两个相同类型的实体并排，它们将连接在一起。我们正在努力改进 ner 系统，因此我们可能会包含一个新模型，该模型可以在这些情况下找到不同提及的边界，希望这将进入斯坦福 CoreNLP 3.8.0。

以下是一些用于访问实体提及的示例代码：

package edu.stanford.nlp.examples;

import edu.stanford.nlp.pipeline.*;
import edu.stanford.nlp.ling.*;
import edu.stanford.nlp.util.*;

import java.util.*;

public class EntityMentionsExample {

  public static void main(String[] args) {
    Annotation document =
        new Annotation("John Smith visted Los Angeles on Tuesday.");
    Properties props = new Properties();
    props.setProperty("annotators", "tokenize,ssplit,pos,lemma,ner,entitymentions");
    StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
    pipeline.annotate(document);

    for (CoreMap entityMention : document.get(CoreAnnotations.MentionsAnnotation.class)) {
      System.out.println(entityMention);
      System.out.println(entityMention.get(CoreAnnotations.TextAnnotation.class));
    }
  }
}

如果您只是以与标记器相同的方式对规则进行标记，它将正常工作，因此例如规则应该是Gilbert 's syndrome.

因此，您只需对所有文本模式运行分词器，这个问题就会消失。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

stanfordnlp

如何使用 CoreNLP 的 RegexNER 检测具有超过 1 个单词的命名实体？的相关文章

使用斯坦福 NLP 检测语言

我想知道是否可以使用Stanford CoreNLP检测句子是用哪种语言写的如果是这样这些算法的精确度如何几乎可以肯定的是斯坦福 COreNLP 目前还没有语言识别功能几乎因为不存在更难证明编辑尽管如此以下是间接证据也没
无法在 R 中初始化 CoreNLP

我无法访问coreNLP在运行 High Sierra 的 Mac 上用 R 编写我不确定问题是什么但似乎每次我再次尝试获取coreNLP工作时我面临着不同的错误我有 JDK 9 0 4 请参阅下面的代码了解我正在尝试执行的操作以
解析短语动词

有人尝试过用斯坦福 NLP 解析短语动词吗问题出在可分离短语动词上例如 climb up do over 我们爬上了那座山我必须把这项工作重新做一遍第一个短语在解析树中看起来像这样 VP VBD climbed ADVP IN th
显示斯坦福 NER 置信度分数

我使用斯坦福 NER CRFClassifier 从新闻文章中提取命名实体为了实现主动学习我想知道每个标记实体的类的置信度分数是多少显示示例地点 0 20 人员 0 10 组织 0 60 其他 0 10 这是我从文本中提取命名实体的
nltk 无法解释斯坦福解析器输出的语法类别 PRP$

我想从斯坦福解析器检索的语法生成句子但 NLTK 无法解释 PRP from nltk parse stanford import StanfordParser from nltk grammar import CFG from nltk
edu.stanford.nlp.io.RuntimeIOException：无法连接到服务器

我正在尝试使用 CoreNLP 服务器注释多个句子但是如果我尝试这样做too many我得到的句子 Exception in thread Thread 48 edu stanford nlp io RuntimeIOException
如何使用 nltk 从字符串中提取名称

我正在尝试从非结构化字符串中提取名称印度这是我的代码 text Balaji Chandrasekaran Bangalore Senior Business Analyst Lead Business Analyst An accom
NER 采用什么模型来查找简历中的人名？

我刚刚开始使用斯坦福 CoreNLP 我想构建一个自定义 NER 模型来查找persons 不幸的是我没有找到一个好的意大利语ner模型我需要在简历简历文档中找到这些实体这里的问题是像这样的文档可以有不同的结构例如我可以有 CAS
TypeError：stat：路径应该是字符串、字节、os.PathLike 或整数，而不是 _io.TextIOWrapper

我在一个python教程网站上找到了以下代码 from nltk tag import StanfordNERTagger stanford classifier open english all 3class distsim crf se
如何在斯坦福 CoreNLP 服务器上使用自定义 TokensRegex 规则注释器？

TokensRegex 规则颜色注释器 stanford corenlp full 2016 10 31 tokensregex color rules txt 通过命令行使用 CoreNLP 时加载成功但对于 Web 服务器则失败jav
斯坦福 CoreNLP 创建 edu.stanford.nlp.time.TimeExpressionExtractorImpl 时出错

我正在尝试学习斯坦福 CoreNLP 库我在发布的示例中使用 C https sergeytihon wordpress com 2013 10 26 stanford corenlp is available on nuget for
如何从文本中提取命名实体+动词

嗯我的目标是从文本中提取 NE 人和与其相关的动词例如我有这样的文字邓布利多转身沿着街道走回去哈利波特在毯子里翻了个身没有醒来作为理想的结果我应该得到邓布利多转身走了哈利波特卷起我使用斯坦福 NER 来查找和标记人
斯坦福核心 NLP 是否支持德语词形还原？

我发现了与斯坦福核心 NLP 兼容的德语解析和后标记模型但是我无法使德语词形还原工作正常进行有办法这样做吗抱歉据我所知 Stanford CoreNLP 不存在德语词形还原的实现
在 NLTK 中使用斯坦福 NER Tagger 提取人员和组织列表

我正在尝试使用 Python NLTK 中的斯坦福命名实体识别器 NER 提取人员和组织的列表当我跑步时 from nltk tag stanford import NERTagger st NERTagger usr share sta
CoreNLP SemanticGraph - 搜索具有特定引理的边

我正在使用斯坦福 CoreNLP 的依存解析器并且想知道如何使用特定的头引理从属引理和词汇关系对 SemanticEdge 进行通用搜索例如如果我有这样的实际依赖项 doobj 发现 4 见解 6 如何使用引理而不是字面单词和索引来
python 的斯坦福大学 nlp

我想做的就是找到任何给定字符串的情绪积极消极中性在研究过程中我遇到了斯坦福 NLP 但遗憾的是它是在 Java 中关于如何让它适用于 python 有什么想法吗 Use py corenlp https github com s
根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头

一般来说名词短语的中心词是位于 NP 最右边的名词如下所示树是父 NP 的中心词所以 ROOT S NP PP
斯坦福自然语言处理：如何对单个单词进行词形还原？

我知道如何注释一个句子并获取每个单词的引理但如果我只想对一个单词进行词形化我不知道该怎么做single单词我试过 Annotation tokenAnnotation new Annotation wedding List
斯坦福 CoreNLP：使用部分现有注释

我们正在尝试利用现有的代币化句子分割和命名实体标记同时我们希望使用斯坦福 CoreNlp 额外为我们提供词性标注词形还原和解析目前我们正在尝试以下方式 1 为 pos lemma parse 创建一个注释器 Propert
使用 NLP 进行句子压缩 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案使用机器翻译我可以获得一个句子的非常压缩的版本例如我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖

随机推荐

系统（“暂停”）澄清

当我使用系统暂停时屏幕上会显示一行按任意键继续这很令人恼火并且使得读取输出变得相当麻烦有什么办法可以阻止这种情况的发生吗您的意思是想按任意键继续但不想在屏幕上显示按任意键继续尝试这个getchar 这将捕获从键盘输入的
为什么 Android 上的 Instagram 不接受 Intent.ACTION_SEND_MULTIPLE

Instagram 应用程序支持多张照片帖子 https help instagram com 269314186824048 https help instagram com 269314186824048 http blog insta
为什么 DateTime 是 .Net 中的结构体？

Why is DateTime结构体而不是可继承的类我希望能够重写 ToString 方法但我不能可能是因为它被视为一种小型简单且不可变的数据结构很像整数或小数在这些条件下将其设为结构使得使用 DateTime 非常高效如果它
如何按共同特征组织数据？

我在对数据进行编目时遇到了麻烦这种方式允许我通过数据的通用描述符或特征来引用数据我很清楚继承特征编程概念和接口但这些似乎都不是我问题的正确答案我正在用 JavaScript 编写一个程序该程序可能包含许多不同的项目或对象假
使用 Flask 和 LangChain 流式传输 ChatGPT 的结果

基本上我想用 Flask 和 LangChain 来实现这一点 https www youtube com watch v x8uwwLNxqis https www youtube com watch v x8uwwLNxqis 我正在构
Hashtable 与 HashMap 中的哈希函数？

我知道Hashtable和HashMap之间的区别然而这两个类似乎都在使用哈希函数完成工作 Hashtable中使用的哈希函数和HashMap中使用的哈希函数有区别吗特别是他们使用的哈希算法有区别吗这两个类中用于散列的公式是什么
Rails 3 命名空间和自定义类的问题（未初始化常量）

我的 Rails 3 2 11 项目中有一个名为app queries visible discussions rb如下所示 class VisibleDiscussions end 我想为查询命名空间以便我可以使用类似的方法来调用它Qu
当我在存储库中丢失一些修订时，如何转储所有 svn 数据？

我想转储旧的 svn 源并将其加载到我的新计算机上我的旧 svn 存储库大约有 100GB 大当我使用svnadmin dump xx Repositoryfile gt mydump为了转储 svn 文件我得到了一个 512Mb 大
如何使用Rcpp来加速for循环？

我创建了一个 for 循环我想使用 Rcpp 库来加速它我对C 不太熟悉你能帮我让我的功能更快吗感谢您的帮助我已经包含了我的算法代码输入和输出以及 sessionInfo Here is 我的算法如果当前价格高于先前价格则
Android Studio：恢复“清除只读状态”对话框

如果源文件是只读的 Android Studio 将显示一个对话框询问我是否要清除文件的只读状态以便可以进行编辑我曾经错误地选中了不再显示此对话框的框然后单击确定从那时起 Android Studio 只是清除文件的只读状态
WPF DataGrid 过滤 - CollectionViewSource 刷新

我想知道如何在单击按钮时刷新 CollectionViewSource 到目前为止我已经
ExtJS中有map()函数吗？

ExtJS有Ext each 函数但是map 是否也隐藏在某处我已经很努力了但还没有找到任何可以填补这个角色的东西这似乎是一些简单而琐碎的事情像 Ext 这样大的 JS 库显然必须具备或者当 Ext 确实不包含它时将其添加到
是否可以在 django 中指定外部 URL 名称

我刚刚开始在 Django 中命名我的 URL 模式因此如果我想更改 URL 模式我只需在一处更改它即可例如 url r HomeListView as view name home 并在我的模板中引用它如下所示 url home
如何跳出父函数？

如果我想打破一个函数我可以调用return 如果我在子函数中并且想跳出调用子函数的父函数怎么办有没有办法做到这一点一个最小的例子 def parent print Parent does some work print Parent
Python午夜时间对比

我必须节省时间AM PM format 但我在决定如何输入午夜时间时遇到困难假设时间是晚上 9 点到第二天早上 6 点我必须把它分成日常的基础像这样 t1 datetime datetime strptime 09 00PM I M
检查两个集合中是否存在任何元素

我想知道 Linq 是否有一种方法来检查两个集合是否至少有一个共同元素我期待这样的事情 var listA new List
将包含“id,attribute,value”列的表转换为“id,attribute1,attribute2,...”

我在数据库中有一个表如下所示 CustomerId Attribute Value 30 Name John 30 Surname Smith 30 Phone 555123456 为了充分利用这些数据我需要让它看起来像某样东西像这样
Spritebatch.Begin() 变换矩阵

我一直想知道 spriteBatch 中的变换矩阵是如何实现的我创建了一个2D相机变换矩阵如下 if needUpdate transformMatrix Matrix CreateTranslation Position X Posi
能否强制 AVFoundation 播放本地 .ts 文件？

显然 AVFoundation 和 Quicktime X 可以解复用并正确播放编码 ts容器因为 tsHTTPS 实时流媒体底层的容器缺乏建立本地网络服务来服务 m3u8以及相关的 ts文件我真的希望能够说服AVURLAsset
如何使用 CoreNLP 的 RegexNER 检测具有超过 1 个单词的命名实体？

我在 CoreNLP 中使用 RegexNER 注释器我的一些命名实体由多个单词组成摘自我的映射文件 RAF 抑制剂 DRUG CLASS 吉尔伯特综合症疾病第一个被检测到但每个单词都获得注释 DRUG CLASS 并且似乎没有办

如何使用 CoreNLP 的 RegexNER 检测具有超过 1 个单词的命名实体？

如何使用 CoreNLP 的 RegexNER 检测具有超过 1 个单词的命名实体？ 的相关文章

随机推荐

热门标签

如何使用 CoreNLP 的 RegexNER 检测具有超过 1 个单词的命名实体？的相关文章