如何基于 stanford-nlp 条件随机场模型训练法国 NER？

2023-11-22

我发现了 stanford-NLP 的工具，发现它真的很有趣。我是一名法国数据挖掘者/数据科学家，喜欢文本分析，并且很想使用你们的工具，但是 NER 在法语中不可用，这让我很困惑。

我很想制作自己的法语 NER，如果认为值得的话，甚至可能将其作为对包的贡献提供，所以...您能否简要介绍一下基于 stanford coreNLP 为法语 NER 训练 CRF 的要求？

谢谢。

注意：我不是斯坦福工具的开发者，也不是 NLP 专家。只是 lambda 用户在某些时候也需要此类信息。另请注意，下面给出的部分信息来自官方常见问题解答：http://nlp.stanford.edu/software/crf-faq.shtml#a

以下是我训练自己的 NER 时遵循的步骤：

安装java 8
创建训练/测试样本。它必须采取以下形式.tsv具有以下格式的文件：
```
  Venez    O
  découvrir    O
  lundi    DAY
  le    O
  nouvel    O
  espace    O
  de    O
  vente    O
  ODHOJS    ORGANISATION
```
根据文本的原始格式，您可以使用 SQL 语句或其他 NLP 工具创建此示例。标签是最复杂的部分，因为我不知道除了手工做之外还有其他方法可以进行。
使用以下命令训练模型：
```
java -cp "stanford-ner.jar:lib/*" -mx4g edu.stanford.nlp.ie.crf.CRFClassifier -prop prop.txt
```
where prop.txt还描述了here.

这应该创建一个新的.jar包含新训练的模型。
测试模型性能：
```
java -cp "stanford-ner.jar:lib/*" edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -testFile test.tsv > test.res
```
输入test.tsv具有相同的格式train.tsv文件。输出在test.res有一个额外的列，其中包含 NER 预测类别。最后几行还显示了精度、召回率和 F1 方面的摘要。

最后，您可以在真实数据上使用 NER：

java -cp "stanford-ner.jar:lib/*" -mx5g edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz  -textFile test.txt -outputFormat inlineXML > test.res

希望能帮助到你。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

stanfordnlp

如何基于 stanford-nlp 条件随机场模型训练法国 NER？的相关文章

创建StanfordCoreNLP对象时出错

我已经从以下位置下载并安装了所需的 jar 文件http nlp stanford edu software corenlp shtml Download 我已经包含了五个 jar 文件斯坦福 pos tagger jar 斯坦福 pso
我的公报上的实体无法识别

我想创建一个自定义 NER 模型这就是我所做的训练数据斯坦福 ner tsv Hello O O My O name O is O Damiano PERSON O 特性 stanford ner prop trainFile sta
如何使用斯坦福解析器将文本拆分为句子？

如何使用将文本或段落拆分为句子斯坦福解析器有没有什么方法可以提取句子比如getSentencesFromString 因为它是规定的Ruby 您可以检查 DocumentPreprocessor 类下面是一个简短的片段我认为可能还有
解析短语动词

有人尝试过用斯坦福 NLP 解析短语动词吗问题出在可分离短语动词上例如 climb up do over 我们爬上了那座山我必须把这项工作重新做一遍第一个短语在解析树中看起来像这样 VP VBD climbed ADVP IN th
使用命名实体训练模型

我正在使用命名实体识别器查看standford corenlp 我有不同类型的输入文本我需要将其标记到我自己的实体中所以我开始训练我自己的模型但它似乎不起作用例如我的输入文本字符串是 Book of 49 Magazine Art
斯坦福 NER：我可以在代码中同时使用两个分类器吗？

在我的代码中我得到Person来自第一个分类器的识别对于我制作的第二个分类器我添加了一些要识别或注释的单词组织但它没有注释Person 我需要从他们两个那里得到好处我该怎么做呢我正在使用 Netbeans 这是代码 String
nltk 无法解释斯坦福解析器输出的语法类别 PRP$

我想从斯坦福解析器检索的语法生成句子但 NLTK 无法解释 PRP from nltk parse stanford import StanfordParser from nltk grammar import CFG from nltk
从解析树中获取某些节点

我正在研究一个涉及通过霍布斯算法进行照应解析的项目我已经使用斯坦福解析器解析了我的文本现在我想操作节点以实现我的算法目前我不明白如何根据 POS 标签访问节点例如我需要以代词开头如何获取所有代词使用访客我对 Java 有
根据标签对一行中的每个句子进行评分并总结文本。（爪哇）

我正在尝试用 Java 创建一个摘要器我正在使用斯坦福对数线性词性标注器 http nlp stanford edu software tagger shtml标记单词然后对于某些标记我对句子进行评分最后在摘要中我打印具有高分值
stanford-corenlp 中的默认线程数是多少

stanford corenlp 中的默认线程数是多少具体来说是命名实体提取器然后是信息提取器另外我希望两者都使用单个线程进行调试我该如何设置 Thanks 默认为 1 个线程有两种方法可以在多线程模式下运行斯坦福 CoreN
NER 采用什么模型来查找简历中的人名？

我刚刚开始使用斯坦福 CoreNLP 我想构建一个自定义 NER 模型来查找persons 不幸的是我没有找到一个好的意大利语ner模型我需要在简历简历文档中找到这些实体这里的问题是像这样的文档可以有不同的结构例如我可以有 CAS
斯坦福核心 NLP 词汇化解析器模型

我是 NLP 新手我正在尝试一个示例程序LexicalizedParser但我无法找到该模型 String parseModel models lexparser englishPCFG ser gz LexicalizedParser
使用斯坦福 NER 从文本文档中提取地址？

我正在寻找斯坦福大学NER http nlp stanford edu software CRF NER shtml并考虑使用 JAVA API 从文本文档中提取邮政地址该文件可以是任何包含邮政地址部分的文件例如水电费电费所以我的想
文本中的句子注释不带标点符号

我很难让 CoreNLP 系统正确找到诗歌语料库中一个句子的结束位置和另一个句子的开始位置其陷入困境的原因有些诗在整个长度上都没有标点符号有时甚至没有大小写有些诗的句子从一个段落延伸到另一个段落有些诗每行开头都大写这是一个特别棘
从 Python 句子中提取三元组

我正在尝试使用Python中的斯坦福依赖解析器从给定的句子中提取三元组主语谓语宾语有人可以指导我完成这个任务吗提前致谢您可以参考以下链接来从句子中提取三元组 https github com tdpetrou RDF Tripl
将中文文档拆分成句子[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我必须将中文文本分成多个句子我尝试了斯坦福文档预处理器它对于英语来说效果很好但对于中文则不然请
斯坦福 NLP - VP 与 NP

我有一个例子斯坦福 NLP 为句子输出了一个奇怪的解析树 Clean my desk ROOT NP NP JJ Clean NP PRP my NN desk 正如你所看到的它标记了这个词Clean作为依赖于动词的形容词desk整个短
阻止斯坦福核心 NLP 服务器输出它收到的文本

我正在运行一个斯坦福核心自然语言处理 http stanfordnlp github io CoreNLP server java mx4g cp edu stanford nlp pipeline StanfordCoreNLPServe
使用 NLP 进行句子压缩 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案使用机器翻译我可以获得一个句子的非常压缩的版本例如我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖
如何使用斯坦福TokensRegex？

我正在尝试使用斯坦福大学TokensRegex 但是我在匹配器行中遇到错误请参阅注释它说请尽力帮助我下面是我的代码 String file A store has many branches A manager may manag

随机推荐

如何运行包中的 Java 类？

我有两个java类如下 App1不带包装 class App1 public static void main String args System out println App1 hello world App2在一个包中 packag
如何从子 Widget 更新父 Widget 的状态，同时更新 Flutter 中子 Widget 的状态？

我想请你帮忙解决这个问题我下面的示例代码旨在从子窗口小部件更新父窗口小部件的状态同时也更新子窗口小部件的状态父窗口小部件的文本值将更新同时也会更改子窗口小部件按钮的颜色 import package flutter material
在Java中如何确保当前本地时间是正确的？ [复制]

这个问题在这里已经有答案了我需要确保在我的客户端应用程序中用户不会显着更改机器日期例如将其更改为 1 个月前据我所知在 Java 中检查当前时间的最佳方法是 System currentTimeInMillis 在多平台环境 W
如何使用Python + Webdriver进行远程连接

我正在尝试弄清楚如何连接到我的远程网络驱动程序实例这是我当前使用的代码 from selenium remote webdriver import WebDriver driver WebDriver http 172 16 205 12
在 Docker 容器中使用 VNCserver + GUI 应用程序 + Virtual Display

我想在 docker 容器内运行 firefox 或任何图形应用程序我的要求当我启动容器时我应该创建一个虚拟显示启动 VNC 服务器然后启动 GUI 应用程序这意味着容器成功启动后我可以通过 VNC 客户端连接到容器内运行的
在 React.js 中，如何在用户单击后退按钮时运行函数？

我环顾四周并尝试使用 React router 找到解决方案通过 V5 您可以使用
fasta.gz 上的 SeqIO.parse

编码新手 Pytho biopython 新手这是我在网上的第一个问题如何打开压缩的 fasta gz 文件以提取信息并在我的函数中执行计算这是我正在尝试执行的操作我尝试了不同的方法以及错误是什么的简化示例我正在使用的 gzip
在 WPF 中仅使用 XAML 根据 TextBox 的文本过滤 ListBox 的项目

我目前有一个绑定到项目集合的列表框由于集合很大我们希望根据在文本框中输入的文本来过滤显示的项目我要问的是是否可以仅使用 XAML 来实现我不想修改项目集合我想根据过滤器修改每个项目的可见性希望它清楚 thanks 就像 Cod
使用 PowerShell 脚本执行 EXE 文件

我正在尝试使用 PowerShell 脚本执行 EXE 文件如果我使用命令行它可以正常工作首先我提供可执行文件的名称和一系列参数来调用它 C Program Files Automated QA TestExecute 8 Bin T
为什么 .NET Reactive Extensions 中不推荐使用主题？

我目前正在掌握 NET 的响应式扩展框架并且正在研究我找到的各种介绍资源主要是http www introtorx com 我们的应用程序涉及许多检测网络帧的硬件接口这些将是我的 IObservables 然后我有各种组件将消耗这些帧
如何在不使用框架集的情况下仅缩放 IFRAME 内容？

我只需要缩放框架内容在我的网页中我使用了zoom 0 75 height 520px width 800px 如果我增加缩放值则意味着帧尺寸将会增加
glClear() 如何提高性能？

Apple 关于解决闪烁问题的技术问答 QA1650 包括以下段落强调我的您必须为屏幕上的每个像素提供一种颜色在绘图代码开始时最好使用 glClear 来初始化颜色缓冲区在帧开始时全屏清除每种颜色深度和模板缓冲区如果您正在使用
SMJobSubmit() 可以用来执行 SMJobBless 安装的特权助手吗？

我一直在阅读文档和 SMJobBless 示例以及互联网上的各种讨论我的应用程序现在使用安装特权助手SMJobBless 但助手根本不运行帮助程序的全部目的是在应用程序启动时加载 kext 这是我的应用程序的重要组件我看到的例子表明
zend 形式的数组输入，如 name="person[]"

在普通的 html 中我们可以有一个数组字段例如person
单个 Prisma 查询中的 LEFT JOINS 和聚合

我有一个包含多个表的数据库经常需要查询LEFT JOIN以便结果包含来自其他表的聚合数据我的 Prisma 架构的片段 model posts id Int id unique default autoincrement user id
使用变量作为格式指令的前缀参数

我需要打印一些前面有可变数量空格的内容例如如果我需要在文本前打印 5 个空格我会这样做 format T 5T My Text Output My Text 我可以使用变量来代替 5 并能够向其传递值吗我正在寻找的是这样的 form
Twilio React Native - 无法解析模块加密

我正在努力实施twilio打包到我的反应本机项目中当我在文件中需要它时项目将无法加载并且我看到以下错误 Unable to resolve module crypto from Users myname Documents Proje
AWS 和 Terraform - 安全组中的默认出口规则

我在许多提供者是 AWS 的 Terraform 项目中看到了可重复的配置配置出站出口规则以允许所有出站流量据我了解这是 AWS 中的默认行为如AWS 用户指南默认情况下安全组包含允许所有出站流量的出站规则您可以删除规则并
Delphi有没有允许路径编辑的编辑控件？

我有各种层次结构并且希望使用编辑器例如下面的资源管理器地址栏中找到的 Microsoft 编辑器进行导航 Delphi有这样的组件吗付费还是免费 TMS 的 TAdvExplorerTreeview 可能就是您所寻找的 http w
如何基于 stanford-nlp 条件随机场模型训练法国 NER？

我发现了 stanford NLP 的工具发现它真的很有趣我是一名法国数据挖掘者数据科学家喜欢文本分析并且很想使用你们的工具但是 NER 在法语中不可用这让我很困惑我很想制作自己的法语 NER 如果认为值得的话甚至可能将其

如何基于 stanford-nlp 条件随机场模型训练法国 NER？

如何基于 stanford-nlp 条件随机场模型训练法国 NER？ 的相关文章

随机推荐

热门标签

如何基于 stanford-nlp 条件随机场模型训练法国 NER？的相关文章