如何基于 stanford-nlp 条件随机场模型训练法国 NER?

2023-11-22

我发现了 stanford-NLP 的工具,发现它真的很有趣。 我是一名法国数据挖掘者/数据科学家,喜欢文本分析,并且很想使用你们的工具,但是 NER 在法语中不可用,这让我很困惑。

我很想制作自己的法语 NER,如果认为值得的话,甚至可能将其作为对包的贡献提供,所以...您能否简要介绍一下基于 stanford coreNLP 为法语 NER 训练 CRF 的要求?

谢谢。


注意:我不是斯坦福工具的开发者,也不是 NLP 专家。只是 lambda 用户在某些时候也需要此类信息。另请注意,下面给出的部分信息来自官方常见问题解答:http://nlp.stanford.edu/software/crf-faq.shtml#a

以下是我训练自己的 NER 时遵循的步骤:

  1. 安装java 8
  2. 创建训练/测试样本。它必须采取以下形式.tsv具有以下格式的文件:

      Venez    O
      découvrir    O
      lundi    DAY
      le    O
      nouvel    O
      espace    O
      de    O
      vente    O
      ODHOJS    ORGANISATION
    

    根据文本的原始格式,您可以使用 SQL 语句或其他 NLP 工具创建此示例。标签是最复杂的部分,因为我不知道除了手工做之外还有其他方法可以进行。

  3. 使用以下命令训练模型:

    java -cp "stanford-ner.jar:lib/*" -mx4g edu.stanford.nlp.ie.crf.CRFClassifier -prop prop.txt
    

    where prop.txt还描述了here.

    这应该创建一个新的.jar包含新训练的模型。

  4. 测试模型性能:

    java -cp "stanford-ner.jar:lib/*" edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -testFile test.tsv > test.res
    

    输入test.tsv具有相同的格式train.tsv文件。输出在test.res有一个额外的列,其中包含 NER 预测类别。最后几行还显示了精度、召回率和 F1 方面的摘要。

  5. 最后,您可以在真实数据上使用 NER:

    java -cp "stanford-ner.jar:lib/*" -mx5g edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz  -textFile test.txt -outputFormat inlineXML > test.res
    

希望能帮助到你。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何基于 stanford-nlp 条件随机场模型训练法国 NER? 的相关文章

  • 创建StanfordCoreNLP对象时出错

    我已经从以下位置下载并安装了所需的 jar 文件http nlp stanford edu software corenlp shtml Download 我已经包含了五个 jar 文件 斯坦福 pos tagger jar 斯坦福 pso
  • 我的公报上的实体无法识别

    我想创建一个自定义 NER 模型 这就是我所做的 训练数据 斯坦福 ner tsv Hello O O My O name O is O Damiano PERSON O 特性 stanford ner prop trainFile sta
  • 如何使用斯坦福解析器将文本拆分为句子?

    如何使用将文本或段落拆分为句子斯坦福解析器 有没有什么方法可以提取句子 比如getSentencesFromString 因为它是规定的Ruby 您可以检查 DocumentPreprocessor 类 下面是一个简短的片段 我认为可能还有
  • 解析短语动词

    有人尝试过用斯坦福 NLP 解析短语动词吗 问题出在可分离短语动词上 例如 climb up do over 我们爬上了那座山 我必须把这项工作重新做一遍 第一个短语在解析树中看起来像这样 VP VBD climbed ADVP IN th
  • 使用命名实体训练模型

    我正在使用命名实体识别器查看standford corenlp 我有不同类型的输入文本 我需要将其标记到我自己的实体中 所以我开始训练我自己的模型 但它似乎不起作用 例如 我的输入文本字符串是 Book of 49 Magazine Art
  • 斯坦福 NER:我可以在代码中同时使用两个分类器吗?

    在我的代码中 我得到Person来自第一个分类器的识别 对于我制作的第二个分类器 我添加了一些要识别或注释的单词组织但它没有注释Person 我需要从他们两个那里得到好处 我该怎么做呢 我正在使用 Netbeans 这是代码 String
  • nltk 无法解释斯坦福解析器输出的语法类别 PRP$

    我想从斯坦福解析器检索的语法生成句子 但 NLTK 无法解释 PRP from nltk parse stanford import StanfordParser from nltk grammar import CFG from nltk
  • 从解析树中获取某些节点

    我正在研究一个涉及通过霍布斯算法进行照应解析的项目 我已经使用斯坦福解析器解析了我的文本 现在我想操作节点以实现我的算法 目前 我不明白如何 根据 POS 标签访问节点 例如 我需要以代词开头 如何获取所有代词 使用访客 我对 Java 有
  • 根据标签对一行中的每个句子进行评分并总结文本。 (爪哇)

    我正在尝试用 Java 创建一个摘要器 我正在使用斯坦福对数线性词性标注器 http nlp stanford edu software tagger shtml标记单词 然后 对于某些标记 我对句子进行评分 最后在摘要中 我打印具有高分值
  • stanford-corenlp 中的默认线程数是多少

    stanford corenlp 中的默认线程数是多少 具体来说 是命名实体提取器 然后是信息提取器 另外 我希望两者都使用单个线程进行调试 我该如何设置 Thanks 默认为 1 个线程 有两种方法可以在多线程模式下运行斯坦福 CoreN
  • NER 采用什么模型来查找简历中的人名?

    我刚刚开始使用斯坦福 CoreNLP 我想构建一个自定义 NER 模型来查找persons 不幸的是 我没有找到一个好的意大利语ner模型 我需要在简历 简历文档中找到这些实体 这里的问题是像这样的文档可以有不同的结构 例如我可以有 CAS
  • 斯坦福核心 NLP 词汇化解析器模型

    我是 NLP 新手 我正在尝试一个示例程序LexicalizedParser但我无法找到该模型 String parseModel models lexparser englishPCFG ser gz LexicalizedParser
  • 使用斯坦福 NER 从文本文档中提取地址?

    我正在寻找斯坦福大学NER http nlp stanford edu software CRF NER shtml并考虑使用 JAVA API 从文本文档中提取邮政地址 该文件可以是任何包含邮政地址部分的文件 例如水电费 电费 所以我的想
  • 文本中的句子注释不带标点符号

    我很难让 CoreNLP 系统正确找到诗歌语料库中一个句子的结束位置和另一个句子的开始位置 其陷入困境的原因 有些诗在整个长度上都没有标点符号 有时甚至没有大小写 有些诗的句子从一个段落延伸到另一个段落 有些诗每行开头都大写 这是一个特别棘
  • 从 Python 句子中提取三元组

    我正在尝试使用Python中的斯坦福依赖解析器从给定的句子中提取三元组 主语 谓语 宾语 有人可以指导我完成这个任务吗 提前致谢 您可以参考以下链接来从句子中提取三元组 https github com tdpetrou RDF Tripl
  • 将中文文档拆分成句子[关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我必须将中文文本分成多个句子 我尝试了斯坦福文档预处理器 它对于英语来说效果很好 但对于中文则不然 请
  • 斯坦福 NLP - VP 与 NP

    我有一个例子 斯坦福 NLP 为句子输出了一个奇怪的解析树 Clean my desk ROOT NP NP JJ Clean NP PRP my NN desk 正如你所看到的 它标记了这个词Clean作为依赖于动词的形容词desk整个短
  • 阻止斯坦福核心 NLP 服务器输出它收到的文本

    我正在运行一个斯坦福核心自然语言处理 http stanfordnlp github io CoreNLP server java mx4g cp edu stanford nlp pipeline StanfordCoreNLPServe
  • 使用 NLP 进行句子压缩 [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 使用机器翻译 我可以获得一个句子的非常压缩的版本 例如 我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖
  • 如何使用斯坦福TokensRegex?

    我正在尝试使用斯坦福大学TokensRegex 但是 我在匹配器行中遇到错误 请参阅注释 它说 请尽力帮助我 下面是我的代码 String file A store has many branches A manager may manag

随机推荐

  • 如何运行包中的 Java 类?

    我有两个java类如下 App1不带包装 class App1 public static void main String args System out println App1 hello world App2在一个包中 packag
  • 如何从子 Widget 更新父 Widget 的状态,同时更新 Flutter 中子 Widget 的状态?

    我想请你帮忙解决这个问题 我下面的示例代码旨在从子窗口小部件更新父窗口小部件的状态 同时也更新子窗口小部件的状态 父窗口小部件的文本值将更新 同时也会更改子窗口小部件按钮的颜色 import package flutter material
  • 在Java中如何确保当前本地时间是正确的? [复制]

    这个问题在这里已经有答案了 我需要确保在我的客户端应用程序中 用户不会显着更改机器日期 例如 将其更改为 1 个月前 据我所知 在 Java 中检查当前时间的最佳方法是 System currentTimeInMillis 在多平台环境 W
  • 如何使用Python + Webdriver进行远程连接

    我正在尝试弄清楚如何连接到我的远程网络驱动程序实例 这是我当前使用的代码 from selenium remote webdriver import WebDriver driver WebDriver http 172 16 205 12
  • 在 Docker 容器中使用 VNCserver + GUI 应用程序 + Virtual Display

    我想在 docker 容器内运行 firefox 或任何图形应用程序 我的要求 当我启动容器时 我应该创建一个虚拟显示 启动 VNC 服务器 然后启动 GUI 应用程序 这意味着容器成功启动后 我可以通过 VNC 客户端连接到容器内运行的
  • 在 React.js 中,如何在用户单击后退按钮时运行函数?

    我环顾四周并尝试使用 React router 找到解决方案 通过 V5 您可以使用
  • fasta.gz 上的 SeqIO.parse

    编码新手 Pytho biopython 新手 这是我在网上的第一个问题 如何打开压缩的 fasta gz 文件以提取信息并在我的函数中执行计算 这是我正在尝试执行的操作 我尝试了不同的方法 以及错误是什么的简化示例 我正在使用的 gzip
  • 在 WPF 中仅使用 XAML 根据 TextBox 的文本过滤 ListBox 的项目

    我目前有一个绑定到项目集合的列表框 由于集合很大 我们希望根据在文本框中输入的文本来过滤显示的项目 我要问的是 是否可以仅使用 XAML 来实现 我不想修改项目集合 我想根据过滤器修改每个项目的可见性 希望它清楚 thanks 就像 Cod
  • 使用 PowerShell 脚本执行 EXE 文件

    我正在尝试使用 PowerShell 脚本执行 EXE 文件 如果我使用命令行 它可以正常工作 首先我提供可执行文件的名称和一系列参数来调用它 C Program Files Automated QA TestExecute 8 Bin T
  • 为什么 .NET Reactive Extensions 中不推荐使用主题?

    我目前正在掌握 NET 的响应式扩展框架 并且正在研究我找到的各种介绍资源 主要是http www introtorx com 我们的应用程序涉及许多检测网络帧的硬件接口 这些将是我的 IObservables 然后我有各种组件将消耗这些帧
  • 如何在不使用框架集的情况下仅缩放 IFRAME 内容?

    我只需要缩放框架内容 在我的网页中我使用了zoom 0 75 height 520px width 800px 如果我增加缩放值 则意味着帧尺寸将会增加
  • glClear() 如何提高性能?

    Apple 关于解决闪烁问题的技术问答 QA1650 包括以下段落 强调我的 您必须为屏幕上的每个像素提供一种颜色 在绘图代码开始时 最好使用 glClear 来初始化颜色缓冲区 在帧开始时全屏清除每种颜色 深度和模板缓冲区 如果您正在使用
  • SMJobSubmit() 可以用来执行 SMJobBless 安装的特权助手吗?

    我一直在阅读文档和 SMJobBless 示例以及互联网上的各种讨论 我的应用程序现在使用安装特权助手SMJobBless 但助手根本不运行 帮助程序的全部目的是在应用程序启动时加载 kext 这是我的应用程序的重要组件 我看到的例子表明
  • zend 形式的数组输入,如 name="person[]"

    在普通的 html 中 我们可以有一个数组字段 例如person
  • 单个 Prisma 查询中的 LEFT JOINS 和聚合

    我有一个包含多个表的数据库 经常需要查询LEFT JOIN以便结果包含来自其他表的聚合数据 我的 Prisma 架构的片段 model posts id Int id unique default autoincrement user id
  • 使用变量作为格式指令的前缀参数

    我需要打印一些前面有可变数量空格的内容 例如 如果我需要在文本前打印 5 个空格 我会这样做 format T 5T My Text Output My Text 我可以使用变量来代替 5 并能够向其传递值吗 我正在寻找的是这样的 form
  • Twilio React Native - 无法解析模块加密

    我正在努力实施twilio打包到我的反应本机项目中 当我在文件中需要它时 项目将无法加载 并且我看到以下错误 Unable to resolve module crypto from Users myname Documents Proje
  • AWS 和 Terraform - 安全组中的默认出口规则

    我在许多提供者是 AWS 的 Terraform 项目中看到了可重复的配置 配置出站 出口 规则以允许所有出站流量 据我了解 这是 AWS 中的默认行为 如AWS 用户指南 默认情况下 安全组包含允许所有出站流量的出站规则 您可以删除规则并
  • Delphi有没有允许路径编辑的编辑控件?

    我有各种层次结构 并且希望使用编辑器 例如下面的资源管理器地址栏中找到的 Microsoft 编辑器 进行导航 Delphi有这样的组件吗 付费还是免费 TMS 的 TAdvExplorerTreeview 可能就是您所寻找的 http w
  • 如何基于 stanford-nlp 条件随机场模型训练法国 NER?

    我发现了 stanford NLP 的工具 发现它真的很有趣 我是一名法国数据挖掘者 数据科学家 喜欢文本分析 并且很想使用你们的工具 但是 NER 在法语中不可用 这让我很困惑 我很想制作自己的法语 NER 如果认为值得的话 甚至可能将其