是否可以将单词附加到现有的 OpenNLP POS 语料库/模型中？

2023-12-30

有没有办法训练现有的 Apache OpenNLP POS Tagger 模型？我需要向模型添加一些特定于我的应用程序的专有名词。当我尝试使用以下命令时：

opennlp POSTaggerTrainer -type maxent -model en-pos-maxent.bin \
        -lang en -data en-pos.train -encoding UTF-8

整个模型被重新训练。我只想添加一些新句子en-pos-maxent.bin

这是我的训练文件的样子：

Where_WRB is_VBZ the_DT Seven_DNNP Dwarfs_DNNP Mine_DNNP Train_DNNP ?_?
Where_WRB is_VBZ the_DT Astro_DNNP Orbiter_DNNP ?_?
Where_WRB is_VBZ the_DT Barnstormer_DNNP  ?_?
Where_WRB is_VBZ the_DT Big_DNNP Thunder_DNNP Mountain_DNNP Railroad_DNNP  ?_?
Where_WRB is_VBZ the_DT Buzz_DNNP Lightyears_DNNP Space_DNNP Ranger_DNNP Spin_DNNP  ?_?
Where_WRB is_VBZ the_DT Casey_DNNP Jr_DNNP Splash_DNNP N_DNNP Soak_DNNP Station_DNNP  ?_?
Where_WRB is_VBZ the_DT Cinderella_DNNP Castle_DNNP  ?_?
Where_WRB is_VBZ the_DT Country_DNNP Bear_DNNP Jamboree_DNNP  ?_?
Where_WRB is_VBZ the_DT Dumbo_DNNP the_DNNP Flying_DNNP Elephant_DNNP  ?_?
Where_WRB is_VBZ the_DT Enchanted_DNNP Tales_DNNP with_DNNP Belle_DNNP  ?_?
Where_WRB is_VBZ the_DT Frontierland_DNNP Shootin_DNNP Arcade_DNNP  ?_?

训练模型后，除了训练文件中的单词外，所有单词都被标记为DNNP。例如，如果我要求标记单词“Where”（存在于训练文件中），答案是WRB，但是如果我要求标记单词“hello”（训练文件中不存在），它会被标记为DNNP。所以我想补充几句话。我怎样才能做到这一点？

不幸的是，您不能简单地使用额外的训练实例来增强 OpenNLP 模型。您需要使用原始训练数据和新数据重新训练整个模型，以获得您想要的模型。您需要使用现有（大型）POS 标记语料库以及新示例来训练新的 POS 标记器模型。

如果您只想识别某些类型的专有名词，您可以考虑使用您的数据训练 OpenNLP NameFinder（或其他命名实体提取器），因为这种注释器更适合识别特定类型的专有名词。您上面只举了几个例子，但我认为词性标注器很难区分正常的 NNP 和新的 DNNP，因为它们出现在与 NNP 相同的上下文中，并且具有相同的形式（大写的名词短语）。命名实体识别器是完成此类任务的更好工具。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

是否可以将单词附加到现有的 OpenNLP POS 语料库/模型中？的相关文章

实时跟踪每分钟/小时/天的前 100 个 Twitter 单词

我最近遇到这样一个面试问题 Given a continuous twitter feed design an algorithm to return the 100 most frequent words used at this min
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
如何对德语文本进行词形还原？

我有一篇德语文本我想对其应用词形还原如果不可能进行词形还原那么我也可以接受词干提取 Data 这是我的德语文本 mails Hallo Ich spielte am fr hen Morgen und ging dann zu ein
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字
NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
R tm 包创建 N 个最常见术语的矩阵

我有一个termDocumentMatrix使用创建的tmR 中的包我正在尝试创建一个包含 50 个最常出现的术语的矩阵数据框当我尝试转换为矩阵时出现此错误 gt ap m lt as matrix mydata dtm Error
除非 POS 显式，否则 WordNetLemmatizer 不会返回正确的引理 - Python NLTK

我正在对 Ted 数据集成绩单进行词形还原我注意到一些奇怪的事情并非所有单词都被词形还原要说的是 selected gt select 哪个是对的然而 involved gt involve and horsing gt horse
使用 SciKit-learn 和大型数据集进行文本分类

首先我昨天开始学习Python 我正在尝试使用 SciKit 和大型数据集 250 000 条推文进行文本分类对于该算法每条推文都将表示为 4000 x 1 向量因此这意味着输入为 250 000 行和 4000 列当我尝试在
如何使用动词时态/语气制作稀疏匹配器模式？

我一直在尝试使用动词时态和情绪为 spacy 匹配器创建一个特定的模式我发现了如何使用 model vocab morphology tag map token tag 访问使用 spacy 解析的单词的形态特征当动词处于虚拟语气模式
Keras：嵌入/向量的附加层？

我有 3 个词嵌入嵌入 1 w11 w12 w13 w14 嵌入 2 w21 w22 w23 w24 嵌入 3 w31 w32 w33 w34 有没有办法通过添加所有三个向量来获得第四个嵌入并使用所有向量的可训练权重例如嵌入 4 w
tm 包本身是否提供了组合文档术语矩阵的内置方法？

tm 包本身是否提供了组合文档术语矩阵的内置方法我在同一语料库上生成了 4 个文档术语矩阵每个矩阵为 1 2 3 4 克它们都非常大 200k 10k 因此将它们转换为数据帧然后绑定它们是毫无疑问的我知道我可以编写一个程序来记录每个
如何从网页中提取文本内容？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在用java开发一个应用程序它
NLTK 可用的停用词语言

我想知道在哪里可以找到 NLTK 停用词支持的语言及其键的完整列表我找到一个列表https pypi org project stop words https pypi org project stop words 但它不包含每个国家
如何使用Bert进行长文本分类？

我们知道 BERT 有 token 的最大长度限制 512 因此如果一篇文章的长度远大于 512 例如文本中有 10000 个 token 如何使用 BERT 您基本上有三个选择您可以剪掉较长的文本并仅使用前 512 个令牌最初的 BE
使用 NLP 进行句子压缩 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案使用机器翻译我可以获得一个句子的非常压缩的版本例如我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖
Spacy提取特定名词短语

我可以在 python 中使用 spacy 来查找具有特定邻居的 NP 吗我想要文本中前后都有动词的名词短语您可以合并名词短语这样它们就不会单独标记化分析依存解析树查看相邻标记的 POS gt gt gt import spacy
在Python中表示语料库句子的一种热门编码

我是 Python 和 Scikit learn 库的初学者我目前需要从事一个 NLP 项目该项目首先需要通过 One Hot Encoding 来表示一个大型语料库我已经阅读了 Scikit learn 关于 preprocessi
如何使用NLTK pos标签获得更好的结果

我正在使用Python学习nltk 我尝试在各种句子上做 pos tag 但得到的结果并不准确我如何即兴创作结果 broke NN flimsy NN crap NN 此外我还收到了很多被归类为 NN 的额外单词我怎样才能过滤掉这些以
有人可以简单解释一下自然语言处理的要素吗？

我是自然语言处理的新手对所使用的术语感到困惑什么是代币化 POS 标签实体识别标记化只是将文本分割成可以有意义的部分或为这些部分赋予含义以及含义当我确定某物是名词动词或形容词时它的名字是什么如果我想分为日期姓名货币呢

随机推荐

NUnit Assert.Equals 与 Assert.AreEqual

有什么区别 Assert Equals and Assert AreEqual Assert NotNull and Assert IsNotNull Assert Equals 是对象比较 Assert AreEquals 被重载以比较
在 Node 模块导出的函数上使用 `jest.spyOn`

In Jest https jestjs io 为了监视并可选择模拟实现方法我们执行以下操作 const childProcess require child process const spySpawnSync jest spyOn
使用 .NET 获得快速 RPC 的最简单方法？

在 NET 中获取 RPC 最简单的方法是什么我看到有 NET Remoting和WCF 根据维基百科 WCF是 NET Remoting的后继者到目前为止我只尝试了远程处理的东西这似乎非常简单到目前为止我也没有遇到任何应用程序
如何对每一行执行语句并返回整个结果

这是上一个问题的延续查找具有匹配行的组 https stackoverflow com questions 42700771 find groups with matching rows 我有一张表其中包含人和他们拥有的汽车 Name
(已解决)如何用jq读取100+GB的文件而不耗尽内存

我有一个 100 GB 的 json 文件当我尝试用 jq 读取它时我的计算机继续运行我们的 ram 有没有办法在限制内存使用的同时读取文件或者有其他方法来读取非常大的 json 文件我在命令中输入的内容 jq keys fileN
如何使用 Cabal 列出所有已安装的软件包及其版本？

是否有一个简单的命令选项可以让您做到这一点我可以用grep但我想知道是否有内置选项我们可以简单地这样做 cabal list installed
python-social-auth 是否需要会话

我正在构建一个带有 API 后端使用 DRF 构建和 angularjs 客户端的 django 应用程序我的目标是使用 JWT 代替会话来完全解耦服务器和客户端我正在尝试整合python 社交身份验证 https github
SQL 中的日期范围交集

我有一个表其中每一行都有开始和结束日期时间这些跨度可以是任意短或长我想查询具有两个开始和停止日期时间的所有行的交集总持续时间如何在 MySQL 中做到这一点或者您是否必须选择与查询开始和停止时间相交的行然后计算每行的实际重叠并在
更改输入焦点上占位符范围的字体颜色

我有一个输入字段里面有一个跨度占位符我想做的是在单击输入字段时更改占位符的颜色这是一个 jsFiddle 其中包含我的领域的示例 http jsfiddle net Vbnj2 http jsfiddle net Vbnj2 最好的方
在 C# 中将 Html 转换为 Docx [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想在 C 中将 html 页面转换为 docx 我该怎么做我的解决方案使用Html2OpenXml
使用node.js从Firestore中的子集合中删除文档

我想从 Firebase 子集合中删除文档我尝试通过以下方式做到这一点 firestore collection categories doc categoryId collection books doc bookId delete 但
为什么插入排序是排序或近似排序数组的最佳算法？

所以我猜它是因为它只是比较 A k 和 A k 1 并在一次扫描中实现但它仍然不清楚有人可以更好地解释一下吗谢谢 This link http www sorting algorithms com 显示了一个不同类型数据集排序算法的图
Blazor - 比较上一个和下一个状态

我在 Blazor 中有一个学生表它来自 api 我还收到推送数据来更新学生信息这基本上是数据库更改后的分数推送工作正常分数为正在更新但我还想将分数更改后表中已更新的字段的背景颜色更改为仅 td 标签的红色几秒钟我的代码如下 f
在 Bootstrap 面板上调用事件展开

我正在开发一个流程我们使用 Bootstrap 风格的手风琴不是 jQuery UI 手风琴要求是当用户展开手风琴时调用服务这是 HTML div class accordion dashboard div class panel
如何清除 WPF WebBrowser 中特定站点的 cookie？

如何删除特定网站或其页面的身份验证 cookie 目前如果我通过 WPF WebBrowser 使用 OAuth 2 0 登录我的登录会话将被保存但我想在每次关闭应用程序时重置会话 public partial class VKLog
使用 Retrofit2 以表单 urlencoded 请求发送对象列表

这是我的邮递员请求我将使用 Retrofit2 Gson 和 RxJava2 发送 POST 请求这是我的要求 FormUrlEncoded POST Student I m sure the address and name are
React Native - 禁用 iOS 键盘上的密码自动填充选项

在 React Native 中如何禁用或阻止键盘显示密码自动填充附件视图选项好像没有房产文本输入处理禁用此选项 React Native TextInput 文档 https facebook github io react nati
连接两个模型以将数据放入视图中

完成MVC菜鸟警告 2小时学习时间我在网上查看了很多 MVC3 示例但没有找到一个简单的示例来完成我想做的事情我想要做的是两个连接两个模型并将一些数据放入视图中最明显的是 public partial class Model1 pu
如何在 Three.js 中将 SVG 文件加载到 SVGRenderer 中

我正在尝试使用SVGRenderer在三个 js中 http trijs org examples svg sandbox http threejs org examples svg sandbox 该示例向您展示了如何动态创建 SVG 元
是否可以将单词附加到现有的 OpenNLP POS 语料库/模型中？

有没有办法训练现有的 Apache OpenNLP POS Tagger 模型我需要向模型添加一些特定于我的应用程序的专有名词当我尝试使用以下命令时 opennlp POSTaggerTrainer type maxent model

是否可以将单词附加到现有的 OpenNLP POS 语料库/模型中？

是否可以将单词附加到现有的 OpenNLP POS 语料库/模型中？ 的相关文章

随机推荐

热门标签

是否可以将单词附加到现有的 OpenNLP POS 语料库/模型中？的相关文章