NER 采用什么模型来查找简历中的人名？

2023-12-30

我刚刚开始使用斯坦福 CoreNLP，我想构建一个自定义 NER 模型来查找persons.

不幸的是，我没有找到一个好的意大利语ner模型。我需要在简历/简历文档中找到这些实体。

这里的问题是像这样的文档可以有不同的结构，例如我可以有：

CASE 1

- Name: John

- Surname: Travolta

- Last name: Travolta

- Full name: John Travolta

(so many labels that can represent the entity of the person i need to extract)

CASE 2

My name is John Travolta and I was born ...

基本上，我可以拥有结构化数据（具有不同的标签）或我应该找到这些实体的上下文。

处理此类文档的最佳方法是什么？ maxent 模型可以在这种情况下工作吗？

编辑@vihari-piratla

目前，我采用的策略是找到左边有东西、右边有东西的模式，按照这种方法，我有 80/85% 找到实体。

Example:

Name: John
Birthdate: 2000-01-01

这意味着我在图案的左侧有“名称：”和\n在右侧（直到找到\n）。我可以创建一个很长的类似模式列表。我考虑了模式，因为我不需要“其他”上下文中的名称。

例如，如果用户在 a 中写入其他名称工作经验我不需要它们。因为我要找的是个人名字，而不是别人的名字。通过这种方法，我可以减少误报，因为我会查看特定模式而不是“通用名称”。

这种方法的一个问题是我有一个很大的模式列表（1 个模式 = 1 个正则表达式），所以如果我添加其他模式，它的扩展性就不会那么好。

如果我能用所有这些模式训练一个 NER 模型，那就太棒了，但我应该使用大量文档来很好地训练它。

第一个案例可能微不足道，我同意奥兹伯恩的建议。

我想对案例2提出一些建议。
斯坦福自然语言处理提供了一个优秀的英文名字识别器，但可能无法找到所有的人名。 OpenNLP 也提供了不错的性能，但比斯坦福大学要差得多。还有许多其他可用于英语的实体识别器。我将在这里重点关注斯坦福自然语言处理（StanfordNLP），这里有一些需要考虑的事情。

公报。您可以为模型提供名称列表，还可以自定义公报条目的匹配方式。斯坦福大学还提供了一个草率匹配选项，设置时将允许与公报条目进行部分匹配。部分匹配应该与人名配合得很好。
斯坦福大学建设性地认可实体。如果在文档中识别出像“John Travolta”这样的名字，那么即使它事先不知道“Travolta”，它也会在同一文档中得到“Travolta”。因此，请在文档中附加尽可能多的信息。在熟悉的上下文中添加案例 1 中识别的名称，例如“我的名字是 John Travolta”。如果“John Travolta”被案例 1 中采用的规则所识别。添加虚拟句子可以提高召回率。

制定培训基准是一个非常昂贵且无聊的过程；您应该按照数万个句子的顺序进行注释，以获得良好的测试性能。我确信，即使您有一个基于带注释的训练数据训练的模型，其性能也不会比实施上述两个步骤时更好。

@edit

由于这个问题的提出者对无监督的基于模式的方法感兴趣，因此我正在扩展我的答案来讨论这些问题。

当监督数据不可用时，通常使用称为引导模式学习方法的方法。该算法从一小组感兴趣的种子实例（如书籍列表）开始，并输出更多相同类型的实例。
请参阅以下资源以获取更多信息

SPIED http://nlp.stanford.edu/software/patternslearning.shtml是一种使用上述技术的软件，可供下载和使用。
索纳尔·古普塔 http://www.cs.stanford.edu/people/sonal/获得博士学位关于这个主题，她的论文可用here http://www.cs.stanford.edu/people/sonal/sonalgupta_dissertation.pdf.
有关此主题的简单介绍，请参阅这些slides http://nlp.stanford.edu/pubs/Gupta_Manning_CoNLL14_slides.pdf.

Thanks

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

stanfordnlp

namedentityrecognition

NER 采用什么模型来查找简历中的人名？的相关文章

用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
python中的语音识别持续时间设置问题

我有一个 Wav 格式的音频文件我想转录我的代码是 import speech recognition as sr harvard sr AudioFile speech file wav with harvard as source
SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同
NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
斯坦福自然语言处理：如何对单个单词进行词形还原？

我知道如何注释一个句子并获取每个单词的引理但如果我只想对一个单词进行词形化我不知道该怎么做single单词我试过 Annotation tokenAnnotation new Annotation wedding List
如何检测文本是否可读？

我想知道是否有一种方法可以告诉给定的文本是人类可读的我所说的人类可读的意思是它有一些含义格式就像某人写的文章或者至少是由软件翻译器生成的供人类阅读的文章这是背景故事最近我正在制作一个应用程序允许用户将短文本上传到数据库在部署
AttributeError：类型对象“Word2Vec”没有属性“load_word2vec_format”

我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
如何在Python中使用多处理来加速循环执行

我有两个清单列表 A 包含 500 个单词列表 B 包含 10000 个单词我正在尝试为列表 A 找到与 B 相关的相似单词我正在使用 Spacy 的相似函数我面临的问题是计算需要很长时间我是多处理使用的新手因此请求帮助如何
如何在R中使用OpenNLP获取POS标签？

这是 R 代码 library NLP library openNLP tagPOS lt function x s lt as String x word token annotator lt Maxent Word Token Anno
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
使用“自然”语言编写代码更好吗？

我最近看到一种编程语言叫做超新星 http supernova sourceforge net 他们在网页上说超新星编程语言是现代脚本语言和第一个提出了概念用直接虚构进行编程描述使用纯人类语言的清晰子集你可以编写如下代码 i
使用 OpenNLP 获取句子的解析树。陷入困境。

OpenNLP 是一个关于自然语言处理的 Apache 项目 NLP 程序的目标之一是解析一个句子并给出其语法结构的树例如天空是蓝色的这句话可能会被解析为 S NP VP The sky is blue where S是句子 NP
计算机AI算法写句子？

我正在寻找有关处理文本句子或在创建在正常人类语言例如英语中有效的句子时遵循结构的算法的信息我想知道这个领域是否有我可以学习或开始使用的项目例如如果我给一个程序一个名词为其提供同义词库相关单词和词性以便它理解每个单词在句子中
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
使用 NLP 进行句子压缩 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案使用机器翻译我可以获得一个句子的非常压缩的版本例如我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖
如何改进 NLTK 中的荷兰语 NER 词块划分器

感谢这个伟大的答案我使用 NLTK 和 Conll2002 语料库训练自己的荷兰语 NE 词块划分器有了一个良好的开端 NLTK 荷兰语命名实体识别 https stackoverflow com questions 11293149
如何使用斯坦福TokensRegex？

我正在尝试使用斯坦福大学TokensRegex 但是我在匹配器行中遇到错误请参阅注释它说请尽力帮助我下面是我的代码 String file A store has many branches A manager may manag
斯坦福 NLP - 处理文件列表时 OpenIE 内存不足

我正在尝试使用斯坦福 CoreNLP 中的 OpenIE 工具从多个文件中提取信息当多个文件而不是一个传递到输入时它会给出内存不足错误 All files have been queued awaiting termination

随机推荐

注意：使用未定义的常量 ENT_HTML5 - 假定为“ENT_HTML5”

我正在尝试创建一个接受 htmlspecialchars 参数的简单方法虽然我收到 PHP 通知使用未定义的常量 ENT HTML5 假定为 ENT HTML5 有什么想法可能导致这种情况吗 Encode string param ar
乘客问题 - Apache

在 Ubuntu 10 04 LTS 的 Linode 切片中运行我收到 500 内部服务器错误 Apache 日志有 Apache 2 2 14 Ubuntu Phusion Passenger 2 2 7 配置恢复正常操作捕获 S
Django 返回带有 L 的用户模型 ID

这个问题直到现在才出现这里是当我尝试从用户模型获取用户 ID 时它返回用户 ID 和字母 L gt gt gt from django contrib auth models import User gt gt gt u User o
Java：如果我的程序有一个实例正在运行，我如何检测它，然后关闭旧的实例

我只想运行我的程序的一个实例但我希望它能关闭旧的如果它们打开的话这是在Java中如果应用程序是使用启动的Java网络启动 http www java com en download faq java webstart xml它可以访
我可以以编程方式列出 Images.xcassets/Something 中的文件吗？

是否可以列出 Images xcassets Something 中的所有图像以便我可以在表格列表视图中显示它们我试过了 NSArray pngs NSBundle pathsForResourcesOfType png inDirec
如何使用 DropZone.js 获得更高质量的缩略图？

我正在使用 DropZone 将文件上传到我的服务器默认设置就可以了但是照片有点小我决定进入 dropzone css 文件并将默认参数更改为 250px x 250 px 而不是 100px x 100px dropzone pre
spring-data-redis Jackson 序列化

我正在尝试使用 spring data redis 的 Jackson 序列化功能我正在构建一个 ObjectMapper 并使用 GenericJackson2JsonRedisSerializer 作为 redisTemplate 的
短变量声明和“声明变量但未使用”错误

我偶然发现了一个奇怪的问题以下代码无法编译 func main var val reflect Value var tm time Time if tm err time Parse time RFC3339 2018 09 11T17
使用netty高速发送消息时出现OOM异常

我用netty编写了一个客户端以便以高速率发送消息通过 jConsole 我看到老一代正在增加最后它抛出 java lang OutOfMemoryError 超出 GC 开销限制是否有一些方法或配置可以避免此异常以下是我的测
管理每周时间表的数据库架构

我写这篇文章是因为我想知道是否有人可以帮助我找出简单时间表应用程序的最佳数据库架构我不知道如何绘制表格来帮助我代表一年中的几周所有用户都将在其中记录他们每周的工作时间干杯非常感谢您的帮助吉列尔莫我将与您分享我们使用的一个典型模型
Scala 元组的通用“映射”函数？

我想使用返回类型 R 的单个函数来映射 Scala 元组或三元组的元素结果应该是具有 R 类型元素的元组或三元组好的如果元组的元素来自相同类型则映射不是问题 scala gt implicit def t2mapper A t
灰度图像中像素的质心

我正在开发一个程序让用户在涂鸦区域绘制一个数字按下按钮应用程序将使用神经网络分类器预测他输入的数字现在为了训练神经网络我使用了 MNIST 数据库其中指定了以下内容 NIST 中的图像经过尺寸标准化以适合 20x20 像素
使用 Fetch API 时捕获“无法加载资源”

我试图在使用 Fetch API 时捕获一堆与同源策略相关的错误但没有成功 window onerror message file line col error gt console log error window addEventLi
Excel VBA 登录 IE 站点

我是一名 VBA 新手也是 Stack Overflow 的新手尽管我已经阅读这里的帖子有一段时间了我已经搜索了很多编码问题的答案但似乎找不到答案我正在尝试登录网站导航到页面然后从该页面抓取数据我已经开始构建我从互联网上找到
Haskell：标准库是否假设 Eq 和 Ord 兼容？

这是一个后续问题Eq 和 Ord 实例不一致 https stackoverflow com questions 17114899 inconsistent eq and ord instances 本质上的问题是当声明时Eq and O
Rails3 和 Sass::Plugin::options

当我尝试添加时Sass Plugin options style compact到环境 rb 当我尝试启动我的服务器时我得到未初始化的常量 Sass NameError 我已经添加了gem haml 3 0 0 to my Gemfil
平面扫描算法：如何对交点之后的线段进行排序

我正在尝试根据这本书在 C 代码中实现线段相交的平面扫描算法 http www cs uu nl geobook http www cs uu nl geobook 他们建议使用平衡二叉搜索树来实现平面扫描的状态结构我正在使用 std s
动态对象转换为仅在运行时已知的类型

情况类型 baseType 仅在运行时已知 objectInstance 是 baseType 类型的子级 objectInstance 是通过调用动态方法检索的必需的 Type baseType obtained at runtime
如何显示部署在 Tomcat 中的应用程序的维护页面？

考虑到我在 Tomcat 中部署了多个应用程序我计划对特定应用程序进行维护因此我想阻止对该特定应用程序的请求并重定向到静态页面通知用户它正在进行计划维护通过tomcat配置来实现这个可以吗任何帮助将不胜感激谢谢我的解决方案
NER 采用什么模型来查找简历中的人名？

我刚刚开始使用斯坦福 CoreNLP 我想构建一个自定义 NER 模型来查找persons 不幸的是我没有找到一个好的意大利语ner模型我需要在简历简历文档中找到这些实体这里的问题是像这样的文档可以有不同的结构例如我可以有 CAS

NER 采用什么模型来查找简历中的人名？

编辑@vihari-piratla

NER 采用什么模型来查找简历中的人名？ 的相关文章

随机推荐

热门标签

NER 采用什么模型来查找简历中的人名？的相关文章