如何基于 stanford-nlp 条件随机场模型训练法国 NER?

2023-11-22

我发现了 stanford-NLP 的工具,发现它真的很有趣。 我是一名法国数据挖掘者/数据科学家,喜欢文本分析,并且很想使用你们的工具,但是 NER 在法语中不可用,这让我很困惑。

我很想制作自己的法语 NER,如果认为值得的话,甚至可能将其作为对包的贡献提供,所以...您能否简要介绍一下基于 stanford coreNLP 为法语 NER 训练 CRF 的要求?

谢谢。


注意:我不是斯坦福工具的开发者,也不是 NLP 专家。只是 lambda 用户在某些时候也需要此类信息。另请注意,下面给出的部分信息来自官方常见问题解答:http://nlp.stanford.edu/software/crf-faq.shtml#a

以下是我训练自己的 NER 时遵循的步骤:

  1. 安装java 8
  2. 创建训练/测试样本。它必须采取以下形式.tsv具有以下格式的文件:

      Venez    O
      découvrir    O
      lundi    DAY
      le    O
      nouvel    O
      espace    O
      de    O
      vente    O
      ODHOJS    ORGANISATION
    

    根据文本的原始格式,您可以使用 SQL 语句或其他 NLP 工具创建此示例。标签是最复杂的部分,因为我不知道除了手工做之外还有其他方法可以进行。

  3. 使用以下命令训练模型:

    java -cp "stanford-ner.jar:lib/*" -mx4g edu.stanford.nlp.ie.crf.CRFClassifier -prop prop.txt
    

    where prop.txt还描述了here.

    这应该创建一个新的.jar包含新训练的模型。

  4. 测试模型性能:

    java -cp "stanford-ner.jar:lib/*" edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -testFile test.tsv > test.res
    

    输入test.tsv具有相同的格式train.tsv文件。输出在test.res有一个额外的列,其中包含 NER 预测类别。最后几行还显示了精度、召回率和 F1 方面的摘要。

  5. 最后,您可以在真实数据上使用 NER:

    java -cp "stanford-ner.jar:lib/*" -mx5g edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz  -textFile test.txt -outputFormat inlineXML > test.res
    

希望能帮助到你。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何基于 stanford-nlp 条件随机场模型训练法国 NER? 的相关文章

  • 如何使用 python nltk 加速 stanford NER 的 NE 识别

    首先 我将文件内容标记为句子 然后对每个句子调用斯坦福 NER 但这个过程确实很慢 我知道如果我在整个文件内容上调用它会更快 但是我在每个句子上调用它 因为我想在 NE 识别之前和之后索引每个句子 st NERTagger stanford
  • 从文本中提取日期

    我正在尝试使用斯坦福 NLP 工具提取日期 8 11 2012 形式文本 Here s a link 对于这个工具的演示 你能帮助我如何训练分类器来识别日期 2012 年 8 月 11 日 我尝试使用训练数据作为 伍德豪斯 PERS 201
  • Nltk stanford pos tagger 错误:Java 命令失败

    我正在尝试使用nltk tag stanford module用于标记一个句子 首先像维基的示例 但我不断收到以下错误 Traceback most recent call last File test py line 28 in
  • Spark Scala - java.util.NoSuchElementException 和数据清理

    我有过一次之前有类似问题 但我正在寻找一个普遍的答案 我在用火花核心LP获取电子邮件的情绪分数 有时 sentiment 在某些输入上崩溃 可能太长 可能有意外的字符 它没有告诉我它在某些情况下崩溃 只是返回Column sentiment
  • 解析短语动词

    有人尝试过用斯坦福 NLP 解析短语动词吗 问题出在可分离短语动词上 例如 climb up do over 我们爬上了那座山 我必须把这项工作重新做一遍 第一个短语在解析树中看起来像这样 VP VBD climbed ADVP IN th
  • 斯坦福 NER:我可以在代码中同时使用两个分类器吗?

    在我的代码中 我得到Person来自第一个分类器的识别 对于我制作的第二个分类器 我添加了一些要识别或注释的单词组织但它没有注释Person 我需要从他们两个那里得到好处 我该怎么做呢 我正在使用 Netbeans 这是代码 String
  • 斯坦福-NER定制对软件编程关键字进行分类

    我是 NLP 新手 我使用斯坦福 NER 工具对一些随机文本进行分类 以提取软件编程中使用的特殊关键字 问题是 我不知道如何更改斯坦福 NER 中的分类器和文本注释器来识别软件编程关键字 例如 today Java used in diff
  • 斯坦福大学对 Python NLTK 的通用依赖关系

    有什么方法可以使用 python 或 nltk 获取通用依赖项吗 我只能生成解析树 Example 输入句子 My dog also likes eating sausage Output Universal dependencies nm
  • edu.stanford.nlp.io.RuntimeIOException:无法连接到服务器

    我正在尝试使用 CoreNLP 服务器注释多个句子 但是 如果我尝试这样做too many我得到的句子 Exception in thread Thread 48 edu stanford nlp io RuntimeIOException
  • nltk:如何防止专有名词的词干

    我正在尝试使用斯坦福词性标注器和 NER 编写一个关键字提取程序 对于关键字提取 我只对专有名词感兴趣 这是基本方法 通过删除字母以外的任何内容来清理数据 删除停用词 每个词的词干 确定每个单词的 POS 标签 如果 POS 标签是名词 则
  • 如何使用 nltk 从字符串中提取名称

    我正在尝试从非结构化字符串中提取名称 印度 这是我的代码 text Balaji Chandrasekaran Bangalore Senior Business Analyst Lead Business Analyst An accom
  • 使用法国模型运行斯坦福 corenlp 服务器

    我正在尝试使用斯坦福 CoreNLP 工具分析一些法语文本 这是我第一次尝试使用斯坦福 NLP 软件 为此 我下载了 v3 6 0 jar 和相应的法国模特 http nlp stanford edu software stanford f
  • 斯坦福核心 NLP 如何获得概率和误差幅度

    当使用解析器或核心 NLP 中的任何注释时 有没有办法访问概率或误差幅度 为了将我的问题放在上下文中 我试图了解是否有一种方法可以以编程方式检测歧义情况 例如 在下面的句子中 动词 desire 被检测为名词 我希望能够知道我可以从 Cor
  • 斯坦福核心 NLP 词汇化解析器模型

    我是 NLP 新手 我正在尝试一个示例程序LexicalizedParser但我无法找到该模型 String parseModel models lexparser englishPCFG ser gz LexicalizedParser
  • 如何在斯坦福 CoreNLP 服务器上使用自定义 TokensRegex 规则注释器?

    TokensRegex 规则颜色注释器 stanford corenlp full 2016 10 31 tokensregex color rules txt 通过命令行使用 CoreNLP 时加载成功 但对于 Web 服务器则失败jav
  • 斯坦福核心 NLP 是否支持德语词形还原?

    我发现了与斯坦福核心 NLP 兼容的德语解析和后标记模型 但是我无法使德语词形还原工作正常进行 有办法这样做吗 抱歉 据我所知 Stanford CoreNLP 不存在德语词形还原的实现
  • 文本中的句子注释不带标点符号

    我很难让 CoreNLP 系统正确找到诗歌语料库中一个句子的结束位置和另一个句子的开始位置 其陷入困境的原因 有些诗在整个长度上都没有标点符号 有时甚至没有大小写 有些诗的句子从一个段落延伸到另一个段落 有些诗每行开头都大写 这是一个特别棘
  • python 的斯坦福大学 nlp

    我想做的就是找到任何给定字符串的情绪 积极 消极 中性 在研究过程中 我遇到了斯坦福 NLP 但遗憾的是它是在 Java 中 关于如何让它适用于 python 有什么想法吗 Use py corenlp https github com s
  • OpenNLP 与斯坦福 CoreNLP

    我一直在对这两个包进行一些比较 但不确定该往哪个方向走 我简单地寻找的是 命名实体识别 人 地点 组织等 性别识别 一个不错的训练 API 据我所知 OpenNLP 和斯坦福 CoreNLP 提供了非常相似的功能 然而 Stanford C
  • 使用 NLP 进行句子压缩 [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 使用机器翻译 我可以获得一个句子的非常压缩的版本 例如 我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖

随机推荐

  • 如何运行包中的 Java 类?

    我有两个java类如下 App1不带包装 class App1 public static void main String args System out println App1 hello world App2在一个包中 packag
  • 如何从子 Widget 更新父 Widget 的状态,同时更新 Flutter 中子 Widget 的状态?

    我想请你帮忙解决这个问题 我下面的示例代码旨在从子窗口小部件更新父窗口小部件的状态 同时也更新子窗口小部件的状态 父窗口小部件的文本值将更新 同时也会更改子窗口小部件按钮的颜色 import package flutter material
  • 在Java中如何确保当前本地时间是正确的? [复制]

    这个问题在这里已经有答案了 我需要确保在我的客户端应用程序中 用户不会显着更改机器日期 例如 将其更改为 1 个月前 据我所知 在 Java 中检查当前时间的最佳方法是 System currentTimeInMillis 在多平台环境 W
  • 如何使用Python + Webdriver进行远程连接

    我正在尝试弄清楚如何连接到我的远程网络驱动程序实例 这是我当前使用的代码 from selenium remote webdriver import WebDriver driver WebDriver http 172 16 205 12
  • 在 Docker 容器中使用 VNCserver + GUI 应用程序 + Virtual Display

    我想在 docker 容器内运行 firefox 或任何图形应用程序 我的要求 当我启动容器时 我应该创建一个虚拟显示 启动 VNC 服务器 然后启动 GUI 应用程序 这意味着容器成功启动后 我可以通过 VNC 客户端连接到容器内运行的
  • 在 React.js 中,如何在用户单击后退按钮时运行函数?

    我环顾四周并尝试使用 React router 找到解决方案 通过 V5 您可以使用
  • fasta.gz 上的 SeqIO.parse

    编码新手 Pytho biopython 新手 这是我在网上的第一个问题 如何打开压缩的 fasta gz 文件以提取信息并在我的函数中执行计算 这是我正在尝试执行的操作 我尝试了不同的方法 以及错误是什么的简化示例 我正在使用的 gzip
  • 在 WPF 中仅使用 XAML 根据 TextBox 的文本过滤 ListBox 的项目

    我目前有一个绑定到项目集合的列表框 由于集合很大 我们希望根据在文本框中输入的文本来过滤显示的项目 我要问的是 是否可以仅使用 XAML 来实现 我不想修改项目集合 我想根据过滤器修改每个项目的可见性 希望它清楚 thanks 就像 Cod
  • 使用 PowerShell 脚本执行 EXE 文件

    我正在尝试使用 PowerShell 脚本执行 EXE 文件 如果我使用命令行 它可以正常工作 首先我提供可执行文件的名称和一系列参数来调用它 C Program Files Automated QA TestExecute 8 Bin T
  • 为什么 .NET Reactive Extensions 中不推荐使用主题?

    我目前正在掌握 NET 的响应式扩展框架 并且正在研究我找到的各种介绍资源 主要是http www introtorx com 我们的应用程序涉及许多检测网络帧的硬件接口 这些将是我的 IObservables 然后我有各种组件将消耗这些帧
  • 如何在不使用框架集的情况下仅缩放 IFRAME 内容?

    我只需要缩放框架内容 在我的网页中我使用了zoom 0 75 height 520px width 800px 如果我增加缩放值 则意味着帧尺寸将会增加
  • glClear() 如何提高性能?

    Apple 关于解决闪烁问题的技术问答 QA1650 包括以下段落 强调我的 您必须为屏幕上的每个像素提供一种颜色 在绘图代码开始时 最好使用 glClear 来初始化颜色缓冲区 在帧开始时全屏清除每种颜色 深度和模板缓冲区 如果您正在使用
  • SMJobSubmit() 可以用来执行 SMJobBless 安装的特权助手吗?

    我一直在阅读文档和 SMJobBless 示例以及互联网上的各种讨论 我的应用程序现在使用安装特权助手SMJobBless 但助手根本不运行 帮助程序的全部目的是在应用程序启动时加载 kext 这是我的应用程序的重要组件 我看到的例子表明
  • zend 形式的数组输入,如 name="person[]"

    在普通的 html 中 我们可以有一个数组字段 例如person
  • 单个 Prisma 查询中的 LEFT JOINS 和聚合

    我有一个包含多个表的数据库 经常需要查询LEFT JOIN以便结果包含来自其他表的聚合数据 我的 Prisma 架构的片段 model posts id Int id unique default autoincrement user id
  • 使用变量作为格式指令的前缀参数

    我需要打印一些前面有可变数量空格的内容 例如 如果我需要在文本前打印 5 个空格 我会这样做 format T 5T My Text Output My Text 我可以使用变量来代替 5 并能够向其传递值吗 我正在寻找的是这样的 form
  • Twilio React Native - 无法解析模块加密

    我正在努力实施twilio打包到我的反应本机项目中 当我在文件中需要它时 项目将无法加载 并且我看到以下错误 Unable to resolve module crypto from Users myname Documents Proje
  • AWS 和 Terraform - 安全组中的默认出口规则

    我在许多提供者是 AWS 的 Terraform 项目中看到了可重复的配置 配置出站 出口 规则以允许所有出站流量 据我了解 这是 AWS 中的默认行为 如AWS 用户指南 默认情况下 安全组包含允许所有出站流量的出站规则 您可以删除规则并
  • Delphi有没有允许路径编辑的编辑控件?

    我有各种层次结构 并且希望使用编辑器 例如下面的资源管理器地址栏中找到的 Microsoft 编辑器 进行导航 Delphi有这样的组件吗 付费还是免费 TMS 的 TAdvExplorerTreeview 可能就是您所寻找的 http w
  • 如何基于 stanford-nlp 条件随机场模型训练法国 NER?

    我发现了 stanford NLP 的工具 发现它真的很有趣 我是一名法国数据挖掘者 数据科学家 喜欢文本分析 并且很想使用你们的工具 但是 NER 在法语中不可用 这让我很困惑 我很想制作自己的法语 NER 如果认为值得的话 甚至可能将其