我刚刚开始使用斯坦福 CoreNLP,我想构建一个自定义 NER 模型来查找persons.
不幸的是,我没有找到一个好的意大利语ner模型。我需要在简历/简历文档中找到这些实体。
这里的问题是像这样的文档可以有不同的结构,例如我可以有:
CASE 1
- Name: John
- Surname: Travolta
- Last name: Travolta
- Full name: John Travolta
(so many labels that can represent the entity of the person i need to extract)
CASE 2
My name is John Travolta and I was born ...
基本上,我可以拥有结构化数据(具有不同的标签)或我应该找到这些实体的上下文。
处理此类文档的最佳方法是什么? maxent 模型可以在这种情况下工作吗?
编辑@vihari-piratla
目前,我采用的策略是找到左边有东西、右边有东西的模式,按照这种方法,我有 80/85% 找到实体。
Example:
Name: John
Birthdate: 2000-01-01
这意味着我在图案的左侧有“名称:”和\n在右侧(直到找到\n)。
我可以创建一个很长的类似模式列表。我考虑了模式,因为我不需要“其他”上下文中的名称。
例如,如果用户在 a 中写入其他名称工作经验我不需要它们。因为我要找的是个人名字,而不是别人的名字。通过这种方法,我可以减少误报,因为我会查看特定模式而不是“通用名称”。
这种方法的一个问题是我有一个很大的模式列表(1 个模式 = 1 个正则表达式),所以如果我添加其他模式,它的扩展性就不会那么好。
如果我能用所有这些模式训练一个 NER 模型,那就太棒了,但我应该使用大量文档来很好地训练它。