使用斯坦福核心 NLP 的自定义关系提取模型未找到任何关系

2024-03-05

我使用斯坦福核心 NLP 训练了一个用于关系提取的自定义模型example http://nlp.stanford.edu/software/relationExtractor.html。但是当我运行模型时,它没有找到任何关系——即使我直接使用训练集中的句子。我使用了一个非常小的训练集(20 个示例)只是为了确保我可以训练模型。尽管我的训练集小得离谱,但我仍然希望该模型能够发挥作用,只是效果很差。为什么模型无法找到任何关系?

另外,我想将我的关系命名为“affordance”,但是当我尝试在数据集中这样做时,我在尝试训练时收到 NullPointerException。如果我将数据集中的关系名称更改为“kill”,它就会突然起作用。我假设由于“kill”是斯坦福给出的关系示例之一,因此它已被添加到某个文件中。有谁知道我如何重命名我的关系?

太感谢了!


训练集示例:

3   Peop    0   O   NNP Alice   O   O   O
3   O   1   O   VBD was O   O   O
3   O   2   O   VBG beginning   O   O   O
3   O   3   O   TO  to  O   O   O
3   O   4   O   VB  get O   O   O
3   O   5   O   RB  very    O   O   O
3   O   6   O   JJ  tired   O   O   O
3   O   7   O   IN  of  O   O   O
3   O   8   O   VBG sitting O   O   O
3   O   9   O   IN  by  O   O   O
3   O   10  O   PRP$    her O   O   O
3   O   11  O   NN  sister  O   O   O
3   O   12  O   IN  on  O   O   O
3   O   13  O   DT  the O   O   O
3   O   14  O   NN  bank    O   O   O
3   O   15  O   .   .   O   O   O

8   14  kill

4   O   0   O   RB  Once    O   O   O
4   O   1   O   CC  or  O   O   O
4   O   2   O   RB  twice   O   O   O
4   O   3   O   PRP she O   O   O
4   O   4   O   VBD had O   O   O
4   O   5   O   VBN peeped  O   O   O
4   O   6   O   IN  into    O   O   O
4   O   7   O   DT  the O   O   O
4   O   8   O   NN  book    O   O   O
4   O   9   O   PRP$    her O   O   O
4   O   10  O   NN  sister  O   O   O
4   O   11  O   VBD was O   O   O
4   O   12  O   VBG reading O   O   O
4   O   13  O   ,   ,   O   O   O
4   O   14  O   CC  but O   O   O
4   O   15  O   PRP it  O   O   O
4   O   16  O   VBD had O   O   O
4   O   17  O   DT  no  O   O   O
4   O   18  O   NNS pictures    O   O   O
4   O   19  O   CC  or  O   O   O
4   O   20  O   NN  conversation    O   O   O
4   O   21  O   .   .   O   O   O

12  8   kill

5   O   0   O   IN  So  O   O   O
5   O   1   O   PRP she O   O   O
5   O   2   O   VBD was O   O   O
5   O   3   O   VBG considering O   O   O
5   O   4   O   IN  in  O   O   O
5   O   5   O   PRP$    her O   O   O
5   O   6   O   JJ  own O   O   O
5   O   7   O   NN  mind    O   O   O
5   O   8   O   ,   ,   O   O   O
5   O   9   O   IN  whether O   O   O
5   O   10  O   DT  the O   O   O
5   O   11  O   NN  pleasure    O   O   O
5   O   12  O   IN  of  O   O   O
5   O   13  O   VBG making  O   O   O
5   O   14  O   DT  a   O   O   O
5   O   15  O   NN  daisy-chain O   O   O
5   O   16  O   MD  would   O   O   O
5   O   17  O   VB  be  O   O   O
5   O   18  O   JJ  worth   O   O   O
5   O   19  O   DT  the O   O   O
5   O   20  O   NN  trouble O   O   O
5   O   21  O   IN  of  O   O   O
5   O   22  O   VBG getting O   O   O
5   O   23  O   RB  up  O   O   O
5   O   24  O   CC  and O   O   O
5   O   25  O   VBG picking O   O   O
5   O   26  O   DT  the O   O   O
5   O   27  O   NNS daisies O   O   O
5   O   28  O   .   .   O   O   O

25  27  kill

6   Peop    0   O   NNP Alice   O   O   O
6   O   1   O   VBD opened  O   O   O
6   O   2   O   DT  the O   O   O
6   O   3   O   NN  door    O   O   O
6   O   4   O   CC  and O   O   O
6   O   5   O   VBD found   O   O   O
6   O   6   O   IN  that    O   O   O
6   O   7   O   PRP it  O   O   O
6   O   8   O   VBD led O   O   O
6   O   9   O   IN  into    O   O   O
6   O   10  O   DT  a   O   O   O
6   O   11  O   JJ  small   O   O   O
6   O   12  O   NN  passage O   O   O
6   O   13  O   ,   ,   O   O   O
6   O   14  O   RB  not O   O   O
6   O   15  O   RB  much    O   O   O
6   O   16  O   JJR larger  O   O   O
6   O   17  O   IN  than    O   O   O
6   O   18  O   DT  a   O   O   O
6   O   19  O   NN  rat-hole    O   O   O
6   O   20  O   .   .   O   O   O

1   3   kill

我发现了我的数据集的问题,以防互联网上的其他人遇到同样的问题。关系实体行,例如8 14 kill必须引用具有ner标签在第 2 列!无法说出我的亲戚的名字也是这种情况的一个症状。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用斯坦福核心 NLP 的自定义关系提取模型未找到任何关系 的相关文章

  • 用于估计(一元)困惑度的 NLTK 包

    我正在尝试计算我所拥有的数据的困惑度 我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
  • 为什么 Keras 的 train_on_batch 在第二个 epoch 产生零损失和准确率?

    我正在使用一个大数据集 所以我尝试使用 train on batch 或适合 epoch 1 model Sequential model add LSTM size input shape input shape return seque
  • gensim如何计算doc2vec段落向量

    我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出 段落向量和词向量被平
  • 快速 shell 命令删除文本文件中的停用词

    我有一个 2GB 的文本文件 我正在尝试从此文件中删除经常出现的英语停用词 我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令 例如 tr sed 或 awk 执行此操作的快速方法是什
  • r caret 包中的 train 函数的模型输出尺寸巨大

    我正在使用 bagFDA 模型进行训练train r caret 包中的函数 并将模型输出保存为 Rdata 文件 输入文件大约有 300k 条记录 有 26 个变量 但输出 Rdata 大小为 3G 我只是运行以下命令 modelout
  • 如何将标记化中的多单词名称保留在一起?

    我想使用 TF IDF 特征对文档进行分类 一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
  • 举例解释bpe(字节对编码)?

    有人可以帮忙解释一下背后的基本概念吗BPE模型 除了这张纸 https arxiv org abs 1508 07909 目前还没有那么多解释 到目前为止我所知道的是 它通过将罕见和未知的单词编码为子词单元序列来实现开放词汇表上的 NMT
  • 验证 Transformer 中多头注意力的实现

    我已经实施了MultiAttention head in Transformers 周围有太多的实现 所以很混乱 有人可以验证我的实施是否正确 DotProductAttention 引用自 https www tensorflow org
  • 使用 SciKit-learn 和大型数据集进行文本分类

    首先 我昨天开始学习Python 我正在尝试使用 SciKit 和大型数据集 250 000 条推文 进行文本分类 对于该算法 每条推文都将表示为 4000 x 1 向量 因此这意味着输入为 250 000 行和 4000 列 当我尝试在
  • Java 中的自然语言处理 (NLP) [重复]

    这个问题在这里已经有答案了 可能的重复 Java 有没有好的自然语言处理库 https stackoverflow com questions 870460 java is there a good natural language pro
  • Python NLP 英式英语与美式英语

    我目前正在用Python 进行NLP 工作 然而 在我的语料库中 既有英式英语也有美式英语 实现 实现 我正在考虑将英式英语转换为美式英语 但是 我没有找到一个好的工具 包来做到这一点 有什么建议么 我也找不到包 但试试这个 请注意 我必须
  • 如何从Python中的阿拉伯字符串中删除英文文本?

    我有一个带有英文文本和标点符号的阿拉伯字符串 我需要过滤阿拉伯文本 我尝试使用 sting 删除标点符号和英语单词 但是 我失去了阿拉伯语单词之间的空格 我哪里错了 import string exclude set string punc
  • 使用 Huggingface 变压器仅保存最佳权重

    目前 我正在使用 Huggingface transformers 构建一个新的基于 Transformer 的模型 其中注意力层与原始模型不同 我用了run glue py检查我的模型在 GLUE 基准测试上的性能 但是 我发现huggi
  • 分词统计方法

    我想解决分词问题 从没有空格的长字符串中解析单词 例如我们想要从中提取单词somelongword to some long word 我们可以通过字典的动态方法来实现这一点 但我们遇到的另一个问题是解析歧义 IE orcore gt or
  • 使用印度名字训练 Spacy NER

    我正在尝试自定义 Spacy 的 NER 来识别印度名字 遵循本指南https spacy io usage training https spacy io usage training这是我正在使用的数据集https gist githu
  • 更换色谱柱时出现稀疏效率警告

    def tdm modify feature names tdm non useful words kill stampede trigger cause death hospital minister said told say inju
  • 池化与随时间池化

    我从概念上理解最大 总和池中发生的情况作为 CNN 层操作 但我看到这个术语 随时间变化的最大池 或 随时间变化的总和池 例如 用于句子分类的卷积神经网络 https arxiv org pdf 1408 5882 pdfYoon Kim
  • 如何在 scikit-learn 的 SVM 中使用非整数字符串标签? Python

    Scikit learn 具有相当用户友好的用于机器学习的 python 模块 我正在尝试训练用于自然语言处理 NLP 的 SVM 标记器 其中我的标签和输入数据是单词和注释 例如 词性标记 而不是使用双精度 整数数据作为输入元组 1 2
  • 有人可以简单解释一下自然语言处理的要素吗?

    我是自然语言处理的新手 对所使用的术语感到困惑 什么是代币化 POS 标签 实体识别 标记化只是将文本分割成可以有意义的部分或为这些部分赋予含义 以及含义 当我确定某物是名词 动词或形容词时 它的名字是什么 如果我想分为日期 姓名 货币呢
  • 斯坦福 NLP - 处理文件列表时 OpenIE 内存不足

    我正在尝试使用斯坦福 CoreNLP 中的 OpenIE 工具从多个文件中提取信息 当多个文件 而不是一个 传递到输入时 它会给出内存不足错误 All files have been queued awaiting termination

随机推荐