斯坦福 CoreNLP：使用部分现有注释

2024-05-18

我们正在尝试利用现有的

代币化
句子分割
和命名实体标记

同时我们希望使用斯坦福 CoreNlp 额外为我们提供

词性标注
词形还原
和解析

目前，我们正在尝试以下方式：

1）为“pos、lemma、parse”创建一个注释器

Properties pipelineProps = new Properties();
pipelineProps.put("annotators", "pos, lemma, parse");
pipelineProps.setProperty("parse.maxlen", "80");
pipelineProps.setProperty("pos.maxlen", "80");
StanfordCoreNLP pipeline = new StanfordCoreNLP(pipelineProps);

2）读入句子，使用自定义方法：

List<CoreMap> sentences = getSentencesForTaggedFile(idToDoc.get(docId));

在该方法中，令牌的构造方式如下：

CoreLabel clToken = new CoreLabel();
clToken.setValue(stringToken);
clToken.setWord(stringToken);
clToken.setOriginalText(stringToken);
clToken.set(CoreAnnotations.NamedEntityTagAnnotation.class, neTag);
sentenceTokens.add(clToken);

它们被组合成这样的句子：

Annotation sentence = new Annotation(sb.toString());
sentence.set(CoreAnnotations.TokensAnnotation.class, sentenceTokens);
sentence.set(CoreAnnotations.TokenBeginAnnotation.class, tokenOffset);
tokenOffset += sentenceTokens.size();
sentence.set(CoreAnnotations.TokenEndAnnotation.class, tokenOffset);
sentence.set(CoreAnnotations.SentenceIndexAnnotation.class, sentences.size());

3）句子列表被传递到管道：

  Annotation document = new Annotation(sentences);
  pipeline.annotate(document);

但是，当运行此程序时，我们收到以下错误：

null: InvocationTargetException: annotator "pos" requires annotator "tokenize"

有什么指示我们如何才能实现我们想要做的事情吗？

由于“pos”注释器（一个实例）未满足预期的要求，因此引发异常POSTagger注释器 https://github.com/stanfordnlp/CoreNLP/blob/master/src/edu/stanford/nlp/pipeline/POSTaggerAnnotator.java class)

StanleyCoreNLP 知道如何创建的注释器的要求定义在注释器 https://github.com/stanfordnlp/CoreNLP/blob/master/src/edu/stanford/nlp/pipeline/Annotator.java界面。对于“pos”注释器的情况，定义了 2 个要求：

标记化
ssplit

这两个要求都需要满足，这意味着“tokenize”注释器和“ssplit”注释器必须在注释器列表中的“pos”注释器之前指定。

现在回到问题...如果您想在管道中跳过“tokenize”和“ssplit”注释，则需要禁用在管道初始化期间执行的需求检查。我发现了两种等效的方法：

禁用传递给StanfordCoreNLP构造函数的属性对象中的要求强制：

props.setProperty("enforceRequirements", "false");
将StanfordCoreNLP构造函数的enforceRequirements参数设置为false

StanfordCoreNLP pipeline = new StanfordCoreNLP(props, false);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

stanfordnlp

斯坦福 CoreNLP：使用部分现有注释的相关文章

将 python NLTK 解析树保存到图像文件[重复]

这个问题在这里已经有答案了这可能会复制这个 stackoverflowquestion https stackoverflow com questions 23429117 saving nltk drawn parse tree to
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
Node2vec 的工作原理

我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法我有点困惑它是如何工作的作为参考 node2vec 由 p 和 q 参数化并通过模拟来自节点的
SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同
如何对德语文本进行词形还原？

我有一篇德语文本我想对其应用词形还原如果不可能进行词形还原那么我也可以接受词干提取 Data 这是我的德语文本 mails Hallo Ich spielte am fr hen Morgen und ging dann zu ein
快速 shell 命令删除文本文件中的停用词

我有一个 2GB 的文本文件我正在尝试从此文件中删除经常出现的英语停用词我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令例如 tr sed 或 awk 执行此操作的快速方法是什
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
斯坦福 CoreNLP：使用部分现有注释

我们正在尝试利用现有的代币化句子分割和命名实体标记同时我们希望使用斯坦福 CoreNlp 额外为我们提供词性标注词形还原和解析目前我们正在尝试以下方式 1 为 pos lemma parse 创建一个注释器 Propert
验证 Transformer 中多头注意力的实现

我已经实施了MultiAttention head in Transformers 周围有太多的实现所以很混乱有人可以验证我的实施是否正确 DotProductAttention 引用自 https www tensorflow org
Java文本输出中的UTF-8编码问题

我一直致力于测试高棉语 Unicode Wordbreaker 的各种解决方案高棉语单词之间没有空格这使得拼写检查和语法检查变得困难以及从旧高棉语转换为高棉语 Unicode 我得到了一些源代码现在在线 http www white
Keras：嵌入/向量的附加层？

我有 3 个词嵌入嵌入 1 w11 w12 w13 w14 嵌入 2 w21 w22 w23 w24 嵌入 3 w31 w32 w33 w34 有没有办法通过添加所有三个向量来获得第四个嵌入并使用所有向量的可训练权重例如嵌入 4 w
使用 OpenNLP 获取句子的解析树。陷入困境。

OpenNLP 是一个关于自然语言处理的 Apache 项目 NLP 程序的目标之一是解析一个句子并给出其语法结构的树例如天空是蓝色的这句话可能会被解析为 S NP VP The sky is blue where S是句子 NP
Rasa core 和 Rasa nlu 之间的区别

我试图理解之间的区别拉莎核心 https core rasa ai and Rasa NLU https nlu rasa ai installation html从官方文档看的但我不太明白我的理解是Rasa core用于引导对话流程
R 中带有变音符号的字符列表

我试图将字符串中的电话字符出现次数制成表格但变音符号单独作为字符制成表格理想情况下我有一个国际音标的单词列表其中包含大量变音符号以及它们与基本字符的几种组合我在这里给出了仅包含一个单词的 MWE 但对于单词列表和更多类型的组合
如何使用WordNet或与wordnet相关的类别来实现基于类别的文本标记？

如何使用wordnet按单词类别标记文本 java作为接口 Example 考虑以下句子 1 计算机需要键盘显示器 CPU才能工作 2 汽车使用齿轮和离合器现在我的目标是例句必须标记为第 1 句话电脑电子键盘电子中央处理器电
Spacy提取特定名词短语

我可以在 python 中使用 spacy 来查找具有特定邻居的 NP 吗我想要文本中前后都有动词的名词短语您可以合并名词短语这样它们就不会单独标记化分析依存解析树查看相邻标记的 POS gt gt gt import spacy
如何在 scikit-learn 的 SVM 中使用非整数字符串标签？ Python

Scikit learn 具有相当用户友好的用于机器学习的 python 模块我正在尝试训练用于自然语言处理 NLP 的 SVM 标记器其中我的标签和输入数据是单词和注释例如词性标记而不是使用双精度整数数据作为输入元组 1 2
有人可以简单解释一下自然语言处理的要素吗？

我是自然语言处理的新手对所使用的术语感到困惑什么是代币化 POS 标签实体识别标记化只是将文本分割成可以有意义的部分或为这些部分赋予含义以及含义当我确定某物是名词动词或形容词时它的名字是什么如果我想分为日期姓名货币呢

随机推荐

CSS 无法从带有 php“includes”的相对路径工作

文件夹结构 index php includes header html css style css 我的主项目文件夹中有 2 个子文件夹一个是名为 includes 的文件夹另一个名为 css 我有我的 index php主文件夹中的
有没有办法替换 Google Docs API 中文本的 URL 链接？

我开始用 Python 探索 Google Docs API 它几乎可以完成我想要它做的所有事情除了一件事我可以替换文档的文本但无法更改超链接的值意思是如果链接看起来像这样 a link http www example com 我
Ajax - 限制列表的加载，然后在滚动上加载其余部分

我有一家商店在一个页面上显示某个类别的所有产品这是店主喜欢的方式因此不能选择分页为了缩短某些重类别的加载时间我希望实现一个可以加载许多产品的脚本 li s然后在页面滚动上加载另一组页面就是用这个结构生成的 div ul clas
以编程方式触发iOS摇动事件

如何以编程方式触发 iOS 中的摇动事件我尝试过以下方法但它总是崩溃 void shake NSLog TEST UIMotionEventProxy m NSClassFromString UIMotionEvent alloc in
Android中如何检测WIFI连接何时建立？

我需要检测何时通过 WIFI 建立网络连接发送什么广播来确定已建立有效的网络连接我需要验证是否存在有效的 HTTP 网络连接我应该监听什么以及需要进行哪些额外测试才能知道是否存在有效连接您可以注册一个BroadcastReceive
错误：更改核心数据模型后架构armv7的重复符号

我有一个使用核心数据框架的应用程序我工作得很好我刚刚更改了数据模型向一个实体添加一个属性当我尝试构建它时出现错误 duplicate symbol OBJC METACLASS AccountFolder in Users XXX
如何扩展字符串文字类型？

Given export type Foo foo bar 如何扩展类型Foo 在另一个模块中也允许 x y 尽可能的价值如果我在其他地方写 export type Foo x y Typescript 抱怨重复的标识符Foo 您无法覆
Entity Framework 6（代码优先）实体版本控制和审计

我正在考虑将 Entity Framework 6 1 1 与 SQL Server 2008 R2 一起使用目前我正在使用代码优先的 EF 功能创建模型和数据库我的基本用例是创建一个特定实体的所有更改的日志 ID是关键栏以帮助审核
解决 Java Checkstyle 错误：名称 'logger' 必须匹配模式 '^[A-Z][A-Z0-9]*(_[A-Z0-9]+)*$'

使用 Eclipse Checkstyle 插件我看到以下错误名称 logger 必须匹配模式 A Z A Z0 9 A Z0 9 我通过更改解决了此错误 private static final Logger logger Logger
是否可以获取 ADL 函数的地址？

是否可以获取通过 ADL 找到的函数的地址例如 template
Rust 编程竞赛中最快的惯用 I/O 例程？

我的问题已部分得到解答因此我根据从评论和其他实验中学到的知识对其进行了修改总之我想要一个用于编程竞赛的快速 I O 例程其中使用单个文件解决问题无需外部包它应该从一个以空格分隔的标记序列中读取BufRead 标准输入或文件标记
调用名称中带有变量的变量 - Coldfusion？

尝试使用方括号表示法来引用动态变量如果您想了解应用程序我正在循环访问由查询创建的一组产品为每个产品创建与其唯一 SKU 相关的字段我已将其范围缩小到这段代码当我尝试运行它时它会抛出无效表达式错误
在随机位置启动 HTML5

我有一个大约 2 小时长的音轨我想在我的网站上使用它我希望它在页面加载时在随机位置开始播放曲目使用 HTML5 可以吗我知道您可以使用 element currentTime 函数来获取当前位置但是如何在完全下载之前获取曲目的总时
iOS：提高图像绘制速度

我有一系列想要制作动画的图像 UIImageView支持一些基本的动画但不足以满足我的需求我的第一个方法是使用UIImageView并设置image当图像属性这太慢了速度慢的原因是图像的绘制这让我感到惊讶我以为瓶颈会加载图像我
在 ASP.Net Web API 中的日志记录 DelegatingHandler 中读取 HttpRequestMessage.Content 时会丢失

当尝试控制器中的操作中的对象时它偶尔似乎为空我发现这是由于ReadAsStringAsync in the SendAsync 覆盖DelegatingHandler 问题出在内容上当我的客户端发送内容主体并在记录器中读取它时控制器
关于窗口层次结构的警告

我的调试器中出现这样的警告这是什么意思 Warning Attempt to present
SQL 使用另一列的键和最大值设置列

我需要根据同一 ID 的 duration 列的最大值更新 max register 列将值设置为 1 其他值设置为 0 初始表 Id duration max register 1 0 0 1 7 0 1 3 0 2 10 0 2 5
ReactiveUI 视图绑定到附加属性

此博客条目 http blog paulbetts org index php 2012 08 27 reactiveui 4 0 preview 2 is here 描述使用视图绑定作为 XAML 绑定的替代品我喜欢基于约定的接线 th
在 Python/Django 中将用户的 facebook/twitter 好友与网站用户进行比较

我想知道是否有人可以帮助指导解决这个相当常见的问题的方法我正在构建一个简单的网站用户可以连接他们的 Twitter 帐户进行注册我想创建一个界面向他们显示哪些推特好友已经在使用该网站因此我可以获得用户的 Twitter 朋友列表
斯坦福 CoreNLP：使用部分现有注释

我们正在尝试利用现有的代币化句子分割和命名实体标记同时我们希望使用斯坦福 CoreNlp 额外为我们提供词性标注词形还原和解析目前我们正在尝试以下方式 1 为 pos lemma parse 创建一个注释器 Propert

斯坦福 CoreNLP：使用部分现有注释

斯坦福 CoreNLP：使用部分现有注释 的相关文章

随机推荐

热门标签

斯坦福 CoreNLP：使用部分现有注释的相关文章