开放 NLP 名称查找器培训

2024-01-28

我正在根据在线手册(http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html)构建一个名为:en-ner-person.train 的 15k 行训练数据文档。

我的问题是:在我的培训文档中,我是否包含完整的报告?或者我只包含有名称的行:<START:person> John Smith <END>?

例如,我是否在训练数据中使用整个报告:

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 .
A nonexecutive  director has many similar responsibilities as an executive director.
However, there are no voting rights with this position.
Mr . <START:person> Vinken <END> is chairman of Elsevier N.V. , the Dutch publishing group .

或者我是否只在我的培训文档中包含这两行:

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 .
Mr . <START:person> Vinken <END> is chairman of Elsevier N.V. , the Dutch publishing group .

您应该使用整个报告。这将有助于系统学习何时不标记实体,从而提高漏报分数。

您可以使用评估工具 http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.eval.tool。保留语料库中的一些句子用于测试,例如总数的 1/10,并使用其他 9/10 句子训练您的模型。您可以尝试使用整个报告进行训练,也可以尝试使用仅包含名称的句子进行训练。结果将表示为准确率和召回率 http://en.wikipedia.org/wiki/Precision_and_recall.

请记住将测试样本与整个报告一起保留,而不仅仅是带有名称的句子,否则您将无法准确测量模型在没有名称的句子中的表现。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

开放 NLP 名称查找器培训 的相关文章

  • 如何在 OpenNLP 中训练命名实体识别器标识符?

    好的 我有以下代码来训练来自 OpenNLP 的 NER 标识符 FileReader fileReader new FileReader train txt ObjectStream fileStream new PlainTextByL
  • 使用 openNLP maxent 训练模型

    我有黄金数据 其中注释了多个文档中的所有房间号 我想使用 openNLP 来训练一个使用这些数据并对房间号进行分类的模型 我不知道从哪里开始 我阅读了 openNLP maxent 文档 查看了 opennlp tools 中的示例 现在查
  • 在 Java 中将单词转换为名词/形容词/动词形式

    是否可以使用 NLTK 的 Java 替代品来 动词化 单词 如本问题所示 在动词 名词 形容词形式之间转换单词 例如 我想将 出生 转换为 出生 因为在使用 Wordnet 相似性时 该算法并未显示 出生 和 出生 非常相似 因此 我想将
  • 如何使用机器学习提取公司债券信息

    我正在开发一个项目 需要从非结构化电子邮件中提取公司债券信息 经过大量研究后 我发现机器学习可以用于信息提取 我尝试了 Opennlp NER 命名实体识别器 但我不确定我是否为这个问题选择了正确的库 因为我得到了结果 但没有达到标准 有人
  • R openNLP无法找到函数sentDetect()

    我正在使用一些软件包 webmining sentiment openNLP 来提取一些有关股票 JPM 的句子 但运行时出现以下错误 eval expr envir enclos 中的错误 找不到函数 sentDetect 这是我使用的代
  • NLP 对句子内容进行分类/标记(需要 Ruby 绑定)

    我正在分析几百万封电子邮件 我的目标是能够将其分组 团体可以是例如 交货问题 发货缓慢 发货前处理缓慢 库存信息不正确等 客户服务问题 电子邮件回复速度慢 回复不礼貌等 退货问题 退货请求处理缓慢 客户服务缺乏帮助等 定价投诉 发现隐藏费用
  • 是否可以将单词附加到现有的 OpenNLP POS 语料库/模型中?

    有没有办法训练现有的 Apache OpenNLP POS Tagger 模型 我需要向模型添加一些特定于我的应用程序的专有名词 当我尝试使用以下命令时 opennlp POSTaggerTrainer type maxent model
  • 开放 NLP 名称查找器培训

    我正在根据在线手册 http opennlp apache org documentation 1 5 2 incubating manual opennlp html 构建一个名为 en ner person train 的 15k 行训
  • 将自然语言问题转换为 SQL 查询 [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我想使用 opennlp Java 库将自然语言问题转换为 SQL 查询 即 谁赢得了索契女子花样滑冰比赛的冠军 应转换为 selec
  • OpenNLP:类文件版本 55.0 错误,应为 52.0

    我在 IntelliJ IDEA 版本 17 0 6 中使用 Open NLP 版本 apache opennlp 2 2 0 库 但收到以下消息 java cannot access opennlp tools namefind Name
  • Apache OpenNLP:java.io.FileInputStream 无法转换为 opennlp.tools.util.InputStreamFactory

    我正在尝试使用 Apache OpenNLP 1 7 构建自定义 NER 从可用的文档来看Here https opennlp apache org documentation 1 7 0 manual opennlp html tools
  • 如何从NLP Tree中提取元素?

    我正在使用NLP包来解析句子 我怎样才能从Tree创建的输出 例如 我想抓住名词短语 NP 来自下面的示例 library NLP library openNLP s lt c Really I like chocolate because
  • 如何分割日语文本?

    使用 Java 分割日语文本的最佳方法是什么 例如 对于以下文本 私 名前 私 行 我需要以下输出 私 名前 私 行 可以使用黑字吗 您可以使用java text BreakIterator String TEXT 私 名前 私 行 Bre
  • OpenNLP 训练中的“截止”和“迭代”是什么意思?

    是什么意思cut off and iteration用于 OpenNLP 培训 或者自然语言处理 我只需要对这些术语进行外行解释 据我认为 迭代是算法重复的次数 截止是一个值 如果文本的值高于某个特定类别的截止值 它将映射到该类别 我对吗
  • 训练OPenNLP错误

    我正在尝试使用 OpenNLP 训练名称实体模型 但收到此错误不知道缺少什么 我是这个 OPENNLP 的新手 请任何人帮忙 如果需要可以提供 Train txt 文件 lineStream opennlp tools util Plain
  • openNLP 与 Solr 集成时出现异常

    我正在尝试将 openNLP 与 Solr 6 1 0 集成 我配置了架构和 solrconfig 文件 详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
  • 如何在R中使用OpenNLP获取POS标签?

    这是 R 代码 library NLP library openNLP tagPOS lt function x s lt as String x word token annotator lt Maxent Word Token Anno
  • 使用 OpenNLP 获取句子的解析树。陷入困境。

    OpenNLP 是一个关于自然语言处理的 Apache 项目 NLP 程序的目标之一是解析一个句子 并给出其语法结构的树 例如 天空是蓝色的 这句话 可能会被解析为 S NP VP The sky is blue where S是句子 NP
  • OpenNLP 与斯坦福 CoreNLP

    我一直在对这两个包进行一些比较 但不确定该往哪个方向走 我简单地寻找的是 命名实体识别 人 地点 组织等 性别识别 一个不错的训练 API 据我所知 OpenNLP 和斯坦福 CoreNLP 提供了非常相似的功能 然而 Stanford C
  • 使用 NLP 进行句子压缩 [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 使用机器翻译 我可以获得一个句子的非常压缩的版本 例如 我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖

随机推荐

  • iPhone 应用程序中的文档文件编辑[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 有人请建议我如何在 iPhone iPad 应用程序中编辑 Word 文档 我不会在我的应用程序中打开Word文档并更改字体样式和颜色并再
  • 关于应用层和数据库层之间的身份验证的意见

    我对一个技术困境感到困惑 我们团队中的两个人推荐了两种不同的安全模型 每种模型都有优点和缺点 绿地看起来像这样 我们有一个 ASP NET Web 应用程序 与业务层对话 与数据库对话 需求之一是能够让更高级别的用户将业务层权限委托给其他用
  • 从 jpeg 中删除文本

    我有一个包含 alpha 混合文本的 jpeg 知道字体和大小后 我推导出一个代表文本的 png 文件 使用 ImageMagick 我可以获得原始图片的近似值吗 实现此目的的一种方法是使用一种称为修复的技术 您可以在 Python Ski
  • 了解 iOS 崩溃 [SIGABRT ABORT]

    我刚刚收到来自 Crashlytics 的第一份崩溃报告 并正在尝试纠正该问题 不幸的是 它只包含一行在旧设备上运行的代码 因此我无法在 iPhone 6 上测试它 Crashlytics 的崩溃报告突出显示了两个线程 第一个内容如下 Fa
  • Singleton httpclient 与创建新的 httpclient 请求

    我正在尝试使用 HttpClient 在我的网络服务中创建层Xamarin Forms移动应用 没有单例模式 具有单例模式 in first方法我在每个新请求中创建新的http客户端对象 通过移动应用程序 这是我的代码 public Htt
  • macOS 11 Big Sur 中具有自定义视图的 NSMenuItem

    macOS 11 Big Sur 当前版本 beta 1 到 beta 6 有一个错误 功能 使得 NSMenuItem 难以使用自定义视图 具体来说 当菜单项突出显示时 项目的自定义视图不会调用draw dirtyRect 我通过 NSM
  • 读取并绑定多个 csv 文件

    我有一系列 csv 文件 每个文件一个 具有相同的列标题和不同的行数 最初我是这样读入并合并它们的 setwd lt N Ring data by cruise Shetland LengthHeight2013 lt read csv N
  • jsp中的“页面范围”是什么?

    有以下范围JSP 页面范围 请求范围 会话范围 适用范围 我对页面范围感到困惑 谁能告诉我这是什么页面范围 我在任何地方都没有找到它的明确定义 page范围意味着 它可以被认为是代表整个JSP页面的对象 即JSP 对象只能从创建它的同一页面
  • 在 Eclipse 中添加库 v7 AppCompat 时如何解决错误“未找到与给定名称匹配的资源”?

    我的项目目标是 API 级别 10 我想实现新的 ActionBar 支持库 按照中的所有说明进行操作后支持库设置 http developer android com tools support library setup html 当将
  • file.choose() 在 Windows 上打开没有文件名的对话框

    当我使用file choose or choose files选择文件时 对话窗口会显示文件夹图标 但不显示文本 以前没有出现过这个问题 我不久前更新了 RStudio 但我不确定这是否是原因 我目前使用 R 4 1 1 和 RStudio
  • CertPathValidatorException:找不到证书路径的信任锚 - Retrofit Android

    我正在创建一个 Android 应用程序 它使用https用于与服务器通信 我在用retrofit and OkHttp用于提出请求 这些对于标准来说效果很好http要求 以下是我遵循的步骤 Step 1 使用命令从服务器获取证书文件 ec
  • 计算彩色图像的 HSV 直方图与 H-S 直方图有何不同?

    我想计算图像的 HSV 直方图 我搜索了很多 但没有发现任何有用的东西 在opencv在线指南中我找到了H S直方图 V 对光照有什么影响 HSV 和 H S 是否相同 意味着 V 对光照没有影响 这是H S直方图的代码 cvtColor
  • 将简单的 Antlr 语法转换为 Xtext

    我想将一个非常简单的Antlr语法转换为Xtext 所以没有句法谓词 https stackoverflow com questions 5728659 translate antlr grammar into xtext grammar
  • mathematica 如何确定在替换中首先使用哪个规则

    我想知道如果给定多个替换规则 mma 如何确定在发生碰撞时首先应用哪个规则 一个例子是 x 3 x 2 s x 3 s 2 s x x gt 0 x OddQ gt 2 Thanks Mathematica 有一种机制能够在简单情况下确定规
  • 从问题到 Wiki 的 GitHub 链接

    我想要链接维基页面来发布文本 语法链接到问题池中 text page 不起作用 怎么做 您还可以使用相对路径 这是我的一个项目的示例 Using a Shell Configuration File wikis Using a Shell
  • mySQL 分区多文件与单文件性能对比?

    对大型表进行分区时 我可以选择将标志 innodb file per table 设置为 TRUE 或 FALSE True 将创建许多文件 每个分区一个 并大大增加我的磁盘使用量 但允许我将分区分布在不同的卷上 我不打算这样做 FALSE
  • 区分手指触摸和手/掌托

    Is there any technique to differentiate between finger touch and palm rest on surface while drawing on touch surface in
  • F#:可以在运行时动态绑定度量单位吗?

    我对 F 非常陌生 对测量单位功能很感兴趣 并且大致了解它的正常工作原理 但想知道是否可以将测量值绑定到我们不知道测量值的值直到代码执行 我正在查看的实际示例是将浮点数绑定为货币值 其中度量单位是从数据库查找中推断出来的 假设每种货币 美元
  • 这个视图控制器是否在“willSet/didSet”对中泄漏?

    你有一个 vc 绿色 它有一个面板 黄色 支架 假设您有十个不同的视图控制器 价格 销售 库存 卡车 司机 调色板 您将一次将它们放入黄色区域 它将动态加载故事板中的每个 VC instantiateViewController withI
  • 开放 NLP 名称查找器培训

    我正在根据在线手册 http opennlp apache org documentation 1 5 2 incubating manual opennlp html 构建一个名为 en ner person train 的 15k 行训