观察:
段落:I love apple. I eat one banana a day
句子:I love apple.
, I eat one banana a day
这一段有两句话,I love apple
and I eat one banana a day
。如果我将整个段落放入 spaCy 中,它只会识别一个实体,例如,apple
,但是如果我将句子一一放入段落中,spaCy 可以识别两个实体,apple
and banana
.(这只是一个例子来说明我的观点,实际的识别结果可能会有所不同)
情况:
自己训练了一个模型后,我想评估我的模型的识别准确性,有两种方法将文本传递到spaCy模型中:
1.将段落拆成句子,并逐句传递句子
for sentence in paragraph:
doc = nlp(sentence)
# retrieve the parsing result
2. 立即通过该段落
doc = nlp(paragraph)
# retrieve the parsing result
问题:
- 我想知道哪种方法可以更好地测试模型的性能?因为我确信通过句子总是比通过段落能够识别更多的实体。
- 如果第二个更好,我是否还需要改变训练模型的方式?目前,我逐句而不是段落地训练 spacy 模型。
我的项目的目标:
获取文档后,识别我对该文档感兴趣的所有实体。
Thanks!
None
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)