使用斯坦福核心 NLP 的自定义关系提取模型未找到任何关系

2024-03-05

我使用斯坦福核心 NLP 训练了一个用于关系提取的自定义模型example http://nlp.stanford.edu/software/relationExtractor.html。但是当我运行模型时，它没有找到任何关系——即使我直接使用训练集中的句子。我使用了一个非常小的训练集（20 个示例）只是为了确保我可以训练模型。尽管我的训练集小得离谱，但我仍然希望该模型能够发挥作用，只是效果很差。为什么模型无法找到任何关系？

另外，我想将我的关系命名为“affordance”，但是当我尝试在数据集中这样做时，我在尝试训练时收到 NullPointerException。如果我将数据集中的关系名称更改为“kill”，它就会突然起作用。我假设由于“kill”是斯坦福给出的关系示例之一，因此它已被添加到某个文件中。有谁知道我如何重命名我的关系？

太感谢了！

训练集示例：

3   Peop    0   O   NNP Alice   O   O   O
3   O   1   O   VBD was O   O   O
3   O   2   O   VBG beginning   O   O   O
3   O   3   O   TO  to  O   O   O
3   O   4   O   VB  get O   O   O
3   O   5   O   RB  very    O   O   O
3   O   6   O   JJ  tired   O   O   O
3   O   7   O   IN  of  O   O   O
3   O   8   O   VBG sitting O   O   O
3   O   9   O   IN  by  O   O   O
3   O   10  O   PRP$    her O   O   O
3   O   11  O   NN  sister  O   O   O
3   O   12  O   IN  on  O   O   O
3   O   13  O   DT  the O   O   O
3   O   14  O   NN  bank    O   O   O
3   O   15  O   .   .   O   O   O

8   14  kill

4   O   0   O   RB  Once    O   O   O
4   O   1   O   CC  or  O   O   O
4   O   2   O   RB  twice   O   O   O
4   O   3   O   PRP she O   O   O
4   O   4   O   VBD had O   O   O
4   O   5   O   VBN peeped  O   O   O
4   O   6   O   IN  into    O   O   O
4   O   7   O   DT  the O   O   O
4   O   8   O   NN  book    O   O   O
4   O   9   O   PRP$    her O   O   O
4   O   10  O   NN  sister  O   O   O
4   O   11  O   VBD was O   O   O
4   O   12  O   VBG reading O   O   O
4   O   13  O   ,   ,   O   O   O
4   O   14  O   CC  but O   O   O
4   O   15  O   PRP it  O   O   O
4   O   16  O   VBD had O   O   O
4   O   17  O   DT  no  O   O   O
4   O   18  O   NNS pictures    O   O   O
4   O   19  O   CC  or  O   O   O
4   O   20  O   NN  conversation    O   O   O
4   O   21  O   .   .   O   O   O

12  8   kill

5   O   0   O   IN  So  O   O   O
5   O   1   O   PRP she O   O   O
5   O   2   O   VBD was O   O   O
5   O   3   O   VBG considering O   O   O
5   O   4   O   IN  in  O   O   O
5   O   5   O   PRP$    her O   O   O
5   O   6   O   JJ  own O   O   O
5   O   7   O   NN  mind    O   O   O
5   O   8   O   ,   ,   O   O   O
5   O   9   O   IN  whether O   O   O
5   O   10  O   DT  the O   O   O
5   O   11  O   NN  pleasure    O   O   O
5   O   12  O   IN  of  O   O   O
5   O   13  O   VBG making  O   O   O
5   O   14  O   DT  a   O   O   O
5   O   15  O   NN  daisy-chain O   O   O
5   O   16  O   MD  would   O   O   O
5   O   17  O   VB  be  O   O   O
5   O   18  O   JJ  worth   O   O   O
5   O   19  O   DT  the O   O   O
5   O   20  O   NN  trouble O   O   O
5   O   21  O   IN  of  O   O   O
5   O   22  O   VBG getting O   O   O
5   O   23  O   RB  up  O   O   O
5   O   24  O   CC  and O   O   O
5   O   25  O   VBG picking O   O   O
5   O   26  O   DT  the O   O   O
5   O   27  O   NNS daisies O   O   O
5   O   28  O   .   .   O   O   O

25  27  kill

6   Peop    0   O   NNP Alice   O   O   O
6   O   1   O   VBD opened  O   O   O
6   O   2   O   DT  the O   O   O
6   O   3   O   NN  door    O   O   O
6   O   4   O   CC  and O   O   O
6   O   5   O   VBD found   O   O   O
6   O   6   O   IN  that    O   O   O
6   O   7   O   PRP it  O   O   O
6   O   8   O   VBD led O   O   O
6   O   9   O   IN  into    O   O   O
6   O   10  O   DT  a   O   O   O
6   O   11  O   JJ  small   O   O   O
6   O   12  O   NN  passage O   O   O
6   O   13  O   ,   ,   O   O   O
6   O   14  O   RB  not O   O   O
6   O   15  O   RB  much    O   O   O
6   O   16  O   JJR larger  O   O   O
6   O   17  O   IN  than    O   O   O
6   O   18  O   DT  a   O   O   O
6   O   19  O   NN  rat-hole    O   O   O
6   O   20  O   .   .   O   O   O

1   3   kill

我发现了我的数据集的问题，以防互联网上的其他人遇到同样的问题。关系实体行，例如8 14 kill必须引用具有ner标签在第 2 列！无法说出我的亲戚的名字也是这种情况的一个症状。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用斯坦福核心 NLP 的自定义关系提取模型未找到任何关系的相关文章

用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
为什么 Keras 的 train_on_batch 在第二个 epoch 产生零损失和准确率？

我正在使用一个大数据集所以我尝试使用 train on batch 或适合 epoch 1 model Sequential model add LSTM size input shape input shape return seque
gensim如何计算doc2vec段落向量

我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出段落向量和词向量被平
快速 shell 命令删除文本文件中的停用词

我有一个 2GB 的文本文件我正在尝试从此文件中删除经常出现的英语停用词我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令例如 tr sed 或 awk 执行此操作的快速方法是什
r caret 包中的 train 函数的模型输出尺寸巨大

我正在使用 bagFDA 模型进行训练train r caret 包中的函数并将模型输出保存为 Rdata 文件输入文件大约有 300k 条记录有 26 个变量但输出 Rdata 大小为 3G 我只是运行以下命令 modelout
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
举例解释bpe（字节对编码）？

有人可以帮忙解释一下背后的基本概念吗BPE模型除了这张纸 https arxiv org abs 1508 07909 目前还没有那么多解释到目前为止我所知道的是它通过将罕见和未知的单词编码为子词单元序列来实现开放词汇表上的 NMT
验证 Transformer 中多头注意力的实现

我已经实施了MultiAttention head in Transformers 周围有太多的实现所以很混乱有人可以验证我的实施是否正确 DotProductAttention 引用自 https www tensorflow org
使用 SciKit-learn 和大型数据集进行文本分类

首先我昨天开始学习Python 我正在尝试使用 SciKit 和大型数据集 250 000 条推文进行文本分类对于该算法每条推文都将表示为 4000 x 1 向量因此这意味着输入为 250 000 行和 4000 列当我尝试在
Java 中的自然语言处理 (NLP) [重复]

这个问题在这里已经有答案了可能的重复 Java 有没有好的自然语言处理库 https stackoverflow com questions 870460 java is there a good natural language pro
Python NLP 英式英语与美式英语

我目前正在用Python 进行NLP 工作然而在我的语料库中既有英式英语也有美式英语实现实现我正在考虑将英式英语转换为美式英语但是我没有找到一个好的工具包来做到这一点有什么建议么我也找不到包但试试这个请注意我必须
如何从Python中的阿拉伯字符串中删除英文文本？

我有一个带有英文文本和标点符号的阿拉伯字符串我需要过滤阿拉伯文本我尝试使用 sting 删除标点符号和英语单词但是我失去了阿拉伯语单词之间的空格我哪里错了 import string exclude set string punc
使用 Huggingface 变压器仅保存最佳权重

目前我正在使用 Huggingface transformers 构建一个新的基于 Transformer 的模型其中注意力层与原始模型不同我用了run glue py检查我的模型在 GLUE 基准测试上的性能但是我发现huggi
分词统计方法

我想解决分词问题从没有空格的长字符串中解析单词例如我们想要从中提取单词somelongword to some long word 我们可以通过字典的动态方法来实现这一点但我们遇到的另一个问题是解析歧义 IE orcore gt or
使用印度名字训练 Spacy NER

我正在尝试自定义 Spacy 的 NER 来识别印度名字遵循本指南https spacy io usage training https spacy io usage training这是我正在使用的数据集https gist githu
更换色谱柱时出现稀疏效率警告

def tdm modify feature names tdm non useful words kill stampede trigger cause death hospital minister said told say inju
池化与随时间池化

我从概念上理解最大总和池中发生的情况作为 CNN 层操作但我看到这个术语随时间变化的最大池或随时间变化的总和池例如用于句子分类的卷积神经网络 https arxiv org pdf 1408 5882 pdfYoon Kim
如何在 scikit-learn 的 SVM 中使用非整数字符串标签？ Python

Scikit learn 具有相当用户友好的用于机器学习的 python 模块我正在尝试训练用于自然语言处理 NLP 的 SVM 标记器其中我的标签和输入数据是单词和注释例如词性标记而不是使用双精度整数数据作为输入元组 1 2
有人可以简单解释一下自然语言处理的要素吗？

我是自然语言处理的新手对所使用的术语感到困惑什么是代币化 POS 标签实体识别标记化只是将文本分割成可以有意义的部分或为这些部分赋予含义以及含义当我确定某物是名词动词或形容词时它的名字是什么如果我想分为日期姓名货币呢
斯坦福 NLP - 处理文件列表时 OpenIE 内存不足

我正在尝试使用斯坦福 CoreNLP 中的 OpenIE 工具从多个文件中提取信息当多个文件而不是一个传递到输入时它会给出内存不足错误 All files have been queued awaiting termination

随机推荐

Java：转换为类型参数

我有以下两个课程 public class GenericNumberOperation public GenericNumberOperation public
CPython 使用什么解析器生成器？

我正在读书这一页 http docs python org py3k reference grammar html在文档中并注意到它说这是完整的 Python 语法由解析器生成器读取并用于解析Python源文件但是我很难找出 C

使用斯坦福核心 NLP 的自定义关系提取模型未找到任何关系

NLP

trainingdata

stanfordnlp

使用斯坦福核心 NLP 的自定义关系提取模型未找到任何关系的相关文章

用于估计（一元）困惑度的 NLTK 包

为什么 Keras 的 train_on_batch 在第二个 epoch 产生零损失和准确率？

gensim如何计算doc2vec段落向量

快速 shell 命令删除文本文件中的停用词

r caret 包中的 train 函数的模型输出尺寸巨大

如何将标记化中的多单词名称保留在一起？

举例解释bpe（字节对编码）？

验证 Transformer 中多头注意力的实现

使用 SciKit-learn 和大型数据集进行文本分类

Java 中的自然语言处理 (NLP) [重复]

Python NLP 英式英语与美式英语

如何从Python中的阿拉伯字符串中删除英文文本？

使用 Huggingface 变压器仅保存最佳权重

分词统计方法

使用印度名字训练 Spacy NER

更换色谱柱时出现稀疏效率警告

池化与随时间池化

如何在 scikit-learn 的 SVM 中使用非整数字符串标签？ Python

有人可以简单解释一下自然语言处理的要素吗？

斯坦福 NLP - 处理文件列表时 OpenIE 内存不足

随机推荐

Java：转换为类型参数

CPython 使用什么解析器生成器？

使用斯坦福核心 NLP 的自定义关系提取模型未找到任何关系

使用斯坦福核心 NLP 的自定义关系提取模型未找到任何关系 的相关文章

随机推荐

使用斯坦福核心 NLP 的自定义关系提取模型未找到任何关系的相关文章