NER 采用什么模型来查找简历中的人名?

2023-12-30

我刚刚开始使用斯坦福 CoreNLP,我想构建一个自定义 NER 模型来查找persons.

不幸的是,我没有找到一个好的意大利语ner模型。我需要在简历/简历文档中找到这些实体。

这里的问题是像这样的文档可以有不同的结构,例如我可以有:

CASE 1

- Name: John

- Surname: Travolta

- Last name: Travolta

- Full name: John Travolta

(so many labels that can represent the entity of the person i need to extract)

CASE 2

My name is John Travolta and I was born ...

基本上,我可以拥有结构化数据(具有不同的标签)或我应该找到这些实体的上下文。

处理此类文档的最佳方法是什么? maxent 模型可以在这种情况下工作吗?


编辑@vihari-piratla

目前,我采用的策略是找到左边有东西、右边有东西的模式,按照这种方法,我有 80/85% 找到实体。

Example:

Name: John
Birthdate: 2000-01-01

这意味着我在图案的左侧有“名称:”和\n在右侧(直到找到\n)。 我可以创建一个很长的类似模式列表。我考虑了模式,因为我不需要“其他”上下文中的名称。

例如,如果用户在 a 中写入其他名称工作经验我不需要它们。因为我要找的是个人名字,而不是别人的名字。通过这种方法,我可以减少误报,因为我会查看特定模式而不是“通用名称”。

这种方法的一个问题是我有一个很大的模式列表(1 个模式 = 1 个正则表达式),所以如果我添加其他模式,它的扩展性就不会那么好。

如果我能用所有这些模式训练一个 NER 模型,那就太棒了,但我应该使用大量文档来很好地训练它。


第一个案例可能微不足道,我同意奥兹伯恩的建议。

我想对案例2提出一些建议。
斯坦福自然语言处理提供了一个优秀的英文名字识别器,但可能无法找到所有的人名。 OpenNLP 也提供了不错的性能,但比斯坦福大学要差得多。还有许多其他可用于英语的实体识别器。我将在这里重点关注斯坦福自然语言处理(StanfordNLP),这里有一些需要考虑的事情。

  1. 公报。您可以为模型提供名称列表,还可以自定义公报条目的匹配方式。斯坦福大学还提供了一个草率匹配选项,设置时将允许与公报条目进行部分匹配。部分匹配应该与人名配合得很好。

  2. 斯坦福大学建设性地认可实体。如果在文档中识别出像“John Travolta”这样的名字,那么即使它事先不知道“Travolta”,它也会在同一文档中得到“Travolta”。因此,请在文档中附加尽可能多的信息。在熟悉的上下文中添加案例 1 中识别的名称,例如“我的名字是 John Travolta”。如果“John Travolta”被案例 1 中采用的规则所识别。添加虚拟句子可以提高召回率。

制定培训基准是一个非常昂贵且无聊的过程;您应该按照数万个句子的顺序进行注释,以获得良好的测试性能。我确信,即使您有一个基于带注释的训练数据训练的模型,其性能也不会比实施上述两个步骤时更好。

@edit

由于这个问题的提出者对无监督的基于模式的方法感兴趣,因此我正在扩展我的答案来讨论这些问题。

当监督数据不可用时,通常使用称为引导模式学习方法的方法。该算法从一小组感兴趣的种子实例(如书籍列表)开始,并输出更多相同类型的实例。
请参阅以下资源以获取更多信息

  • SPIED http://nlp.stanford.edu/software/patternslearning.shtml是一种使用上述技术的软件,可供下载和使用。
  • 索纳尔·古普塔 http://www.cs.stanford.edu/people/sonal/获得博士学位关于这个主题,她的论文可用here http://www.cs.stanford.edu/people/sonal/sonalgupta_dissertation.pdf.
  • 有关此主题的简单介绍,请参阅这些slides http://nlp.stanford.edu/pubs/Gupta_Manning_CoNLL14_slides.pdf.

Thanks

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

NER 采用什么模型来查找简历中的人名? 的相关文章

  • 用于估计(一元)困惑度的 NLTK 包

    我正在尝试计算我所拥有的数据的困惑度 我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
  • python中的语音识别持续时间设置问题

    我有一个 Wav 格式的音频文件 我想转录 我的代码是 import speech recognition as sr harvard sr AudioFile speech file wav with harvard as source
  • SpaCy 模型“en_core_web_sm”的词汇量大小

    我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词 我也在同
  • NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

    这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
  • openNLP 与 Solr 集成时出现异常

    我正在尝试将 openNLP 与 Solr 6 1 0 集成 我配置了架构和 solrconfig 文件 详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
  • 斯坦福自然语言处理:如何对单个单词进行词形还原?

    我知道如何注释一个句子并获取每个单词的引理 但如果我只想对一个单词进行词形化 我不知道该怎么做single单词 我试过 Annotation tokenAnnotation new Annotation wedding List
  • 如何检测文本是否可读?

    我想知道是否有一种方法可以告诉给定的文本是人类可读的 我所说的人类可读的意思是 它有一些含义 格式就像某人写的文章 或者至少是由软件翻译器生成的供人类阅读的文章 这是背景故事 最近我正在制作一个应用程序 允许用户将短文本上传到数据库 在部署
  • AttributeError:类型对象“Word2Vec”没有属性“load_word2vec_format”

    我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
  • 保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

    我创建了自己的 BertClassifier 模型 从预训练开始 然后添加由不同层组成的我自己的分类头 微调后 我想使用 model save pretrained 保存模型 但是当我打印它并从预训练上传时 我看不到我的分类器头 代码如下
  • 如何在Python中使用多处理来加速循环执行

    我有两个清单 列表 A 包含 500 个单词 列表 B 包含 10000 个单词 我正在尝试为列表 A 找到与 B 相关的相似单词 我正在使用 Spacy 的相似函数 我面临的问题是计算需要很长时间 我是多处理使用的新手 因此请求帮助 如何
  • 如何在R中使用OpenNLP获取POS标签?

    这是 R 代码 library NLP library openNLP tagPOS lt function x s lt as String x word token annotator lt Maxent Word Token Anno
  • Python模块可以访问英语词典,包括单词的定义[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我正在寻找一个 python 模块 它可以帮助我从英语词典中获取单词的定义 当然有enchant 这可以帮助我检查该单词是否存在于英语中
  • 使用“自然”语言编写代码更好吗?

    我最近看到一种编程语言叫做超新星 http supernova sourceforge net 他们在网页上说 超新星编程语言是 现代脚本语言和 第一个提出了概念 用直接虚构进行编程 描述使用 纯人类语言的清晰子集 你可以编写如下代码 i
  • 使用 OpenNLP 获取句子的解析树。陷入困境。

    OpenNLP 是一个关于自然语言处理的 Apache 项目 NLP 程序的目标之一是解析一个句子 并给出其语法结构的树 例如 天空是蓝色的 这句话 可能会被解析为 S NP VP The sky is blue where S是句子 NP
  • 计算机AI算法写句子?

    我正在寻找有关处理文本句子或在创建在正常人类语言 例如英语 中有效的句子时遵循结构的算法的信息 我想知道这个领域是否有我可以学习或开始使用的项目 例如 如果我给一个程序一个名词 为其提供同义词库 相关单词 和词性 以便它理解每个单词在句子中
  • FastText - 由于 C++ 扩展未能分配内存,无法加载 model.bin

    我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然 据我所知 此 API 无法加载较新的
  • 使用 NLP 进行句子压缩 [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 使用机器翻译 我可以获得一个句子的非常压缩的版本 例如 我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖
  • 如何改进 NLTK 中的荷兰语 NER 词块划分器

    感谢这个伟大的答案 我使用 NLTK 和 Conll2002 语料库训练自己的荷兰语 NE 词块划分器 有了一个良好的开端 NLTK 荷兰语命名实体识别 https stackoverflow com questions 11293149
  • 如何使用斯坦福TokensRegex?

    我正在尝试使用斯坦福大学TokensRegex 但是 我在匹配器行中遇到错误 请参阅注释 它说 请尽力帮助我 下面是我的代码 String file A store has many branches A manager may manag
  • 斯坦福 NLP - 处理文件列表时 OpenIE 内存不足

    我正在尝试使用斯坦福 CoreNLP 中的 OpenIE 工具从多个文件中提取信息 当多个文件 而不是一个 传递到输入时 它会给出内存不足错误 All files have been queued awaiting termination

随机推荐

  • 注意:使用未定义的常量 ENT_HTML5 - 假定为“ENT_HTML5”

    我正在尝试创建一个接受 htmlspecialchars 参数的简单方法 虽然我收到 PHP 通知 使用未定义的常量 ENT HTML5 假定为 ENT HTML5 有什么想法可能导致这种情况吗 Encode string param ar
  • 乘客问题 - Apache

    在 Ubuntu 10 04 LTS 的 Linode 切片中运行 我收到 500 内部服务器错误 Apache 日志有 Apache 2 2 14 Ubuntu Phusion Passenger 2 2 7 配置 恢复正常操作 捕获 S
  • Django 返回带有 L 的用户模型 ID

    这个问题直到现在才出现 这里是 当我尝试从用户模型获取用户 ID 时 它返回用户 ID 和字母 L gt gt gt from django contrib auth models import User gt gt gt u User o
  • Java:如果我的程序有一个实例正在运行,我如何检测它,然后关闭旧的实例

    我只想运行我的程序的一个实例 但我希望它能关闭旧的 如果它们打开的话 这是在Java中 如果应用程序是使用启动的Java网络启动 http www java com en download faq java webstart xml它可以访
  • 我可以以编程方式列出 Images.xcassets/Something 中的文件吗?

    是否可以列出 Images xcassets Something 中的所有图像 以便我可以在表格列表视图中显示它们 我试过了 NSArray pngs NSBundle pathsForResourcesOfType png inDirec
  • 如何使用 DropZone.js 获得更高质量的缩略图?

    我正在使用 DropZone 将文件上传到我的服务器 默认设置就可以了 但是照片有点小 我决定进入 dropzone css 文件并将默认参数更改为 250px x 250 px 而不是 100px x 100px dropzone pre
  • spring-data-redis Jackson 序列化

    我正在尝试使用 spring data redis 的 Jackson 序列化功能 我正在构建一个 ObjectMapper 并使用 GenericJackson2JsonRedisSerializer 作为 redisTemplate 的
  • 短变量声明和“声明变量但未使用”错误

    我偶然发现了一个奇怪的问题 以下代码无法编译 func main var val reflect Value var tm time Time if tm err time Parse time RFC3339 2018 09 11T17
  • 使用netty高速发送消息时出现OOM异常

    我用netty编写了一个客户端 以便以高速率发送消息 通过 jConsole 我看到 老一代 正在增加 最后它抛出 java lang OutOfMemoryError 超出 GC 开销限制 是否有一些方法或配置可以避免此异常 以下是我的测
  • 管理每周时间表的数据库架构

    我写这篇文章是因为我想知道是否有人可以帮助我找出简单时间表应用程序的最佳数据库架构 我不知道如何绘制表格来帮助我代表一年中的几周 所有用户都将在其中记录他们每周的工作时间 干杯 非常感谢您的帮助 吉列尔莫 我将与您分享我们使用的一个典型模型
  • Scala 元组的通用“映射”函数?

    我想使用返回类型 R 的单个函数来映射 Scala 元组 或三元组 的元素 结果应该是具有 R 类型元素的元组 或三元组 好的 如果元组的元素来自相同类型 则映射不是问题 scala gt implicit def t2mapper A t
  • 灰度图像中像素的质心

    我正在开发一个程序 让用户在 涂鸦区域 绘制一个数字 按下按钮 应用程序将使用神经网络分类器预测他输入的数字 现在 为了训练神经网络 我使用了 MNIST 数据库 其中指定了以下内容 NIST 中的图像经过尺寸标准化以适合 20x20 像素
  • 使用 Fetch API 时捕获“无法加载资源”

    我试图在使用 Fetch API 时捕获一堆与同源策略相关的错误 但没有成功 window onerror message file line col error gt console log error window addEventLi
  • Excel VBA 登录 IE 站点

    我是一名 VBA 新手 也是 Stack Overflow 的新手 尽管我已经阅读这里的帖子有一段时间了 我已经搜索了很多编码问题的答案 但似乎找不到答案 我正在尝试登录网站 导航到页面 然后从该页面抓取数据 我已经开始构建我从互联网上找到
  • Haskell:标准库是否假设 Eq 和 Ord 兼容?

    这是一个后续问题Eq 和 Ord 实例不一致 https stackoverflow com questions 17114899 inconsistent eq and ord instances 本质上的问题是 当声明时Eq and O
  • Rails3 和 Sass::Plugin::options

    当我尝试添加时Sass Plugin options style compact到环境 rb 当我尝试启动我的服务器时 我得到 未初始化的常量 Sass NameError 我已经添加了gem haml 3 0 0 to my Gemfil
  • 平面扫描算法:如何对交点之后的线段进行排序

    我正在尝试根据这本书在 C 代码中实现线段相交的平面扫描算法 http www cs uu nl geobook http www cs uu nl geobook 他们建议使用平衡二叉搜索树来实现平面扫描的状态结构 我正在使用 std s
  • 动态对象转换为仅在运行时已知的类型

    情况 类型 baseType 仅在运行时已知 objectInstance 是 baseType 类型的子级 objectInstance 是通过调用动态方法检索的 必需的 Type baseType obtained at runtime
  • 如何显示部署在 Tomcat 中的应用程序的维护页面?

    考虑到我在 Tomcat 中部署了多个应用程序 我计划对特定应用程序进行维护 因此 我想阻止对该特定应用程序的请求并重定向到静态页面 通知用户它正在进行计划维护 通过tomcat配置来实现这个 可以吗 任何帮助将不胜感激 谢谢 我的解决方案
  • NER 采用什么模型来查找简历中的人名?

    我刚刚开始使用斯坦福 CoreNLP 我想构建一个自定义 NER 模型来查找persons 不幸的是 我没有找到一个好的意大利语ner模型 我需要在简历 简历文档中找到这些实体 这里的问题是像这样的文档可以有不同的结构 例如我可以有 CAS