开源的基于规则的模式匹配/信息提取框架? [关闭]

2024-01-09

我正在购买一个开源框架,用于编写自然语言语法规则,以通过注释进行模式匹配。您可以将其视为正则表达式,但在标记而不是字符级别进行匹配。这样的框架应该使匹配标准能够引用附加到输入标记或跨度的其他属性,以及在操作中修改此类属性。

我知道三个选项符合此描述:

  • GATE 基于注释的 Java 表达式 (JAPE) http://gate.ac.uk/sale/tao/splitch8.html#chap%3ajape
  • 斯坦福 CoreNLP 的 TokensRegex http://nlp.stanford.edu/software/tokensregex.shtml#Mail
  • UIMA http://uima.apache.org/ Ruta http://uima.apache.org/ruta.html (Tutorial http://uima.apache.org/gscl13.html#gscl.tutorial)
  • 图表达式 (GExp) http://code.google.com/p/graph-expression/*

目前还有其他类似的选择吗?

相关工具

  • 虽然我知道一般的解析器生成器像Antlr http://www.antlr.org/也可以达到这个目的,我正在寻找更适合自然语言处理或信息提取的东西。
  • UIMA http://uima.apache.org/包括一个正则表达式注释器 http://uima.apache.org/d/uima-addons-current/RegularExpressionAnnotator/RegexAnnotatorUserGuide.html用于在 XML 中声明规则的插件,但似乎是在字符而不是高级对象上操作。
  • 我知道这种任务通常是通过统计模型来执行的,但对于狭窄的结构化领域,手工制定规则是有好处的。

* 对于 GExp,“规则”实际上是在代码中实现的,但由于选项太少,我选择包含它。


您还可以检查 HTQL。它支持标记的正则表达式搜索。从美国地址搜索州和邮政编码的示例是:

a=htql.RegEx(); 
a.setNameSet('states', states);
a.reSearchList(address.split(), r"&[ws:states]<,>?<\d{5}>", case=False) 
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

开源的基于规则的模式匹配/信息提取框架? [关闭] 的相关文章

  • RichTextbox SelectionStart 返回错误的索引

    我需要向用户显示光标上文本的选择开始和长度 就像在 notepad exe 中一样 选择长度没有问题 因为 Richtextbox 支持带有开始和结束的选择属性 http msdn microsoft com en us library s
  • 对产品列表进行分类的算法? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我有一个代表或多或少相同的产品的列表 例如 在下面的列表中 它们都是希捷硬盘 希捷硬盘 500Go 适用于笔记本电脑的希捷硬盘 120
  • jQuery 字符和字数统计

    这是一个非常简单的问题 jQuery 是否可以获取一个元素 计算该元素 不是文本区域或输入 中的单词数和字符数 并将其显示在 HTML 文档上 我能想到的唯一可行的代码是 document write content text length
  • 如何区分哪些 unicode 字符是字母(单词)还是标点符号?

    我想检测文本中的单词 即我需要知道给定文本中的哪些字符是字母 即它们可以是 口语 单词的一部分 另一方面 哪些字符是标点符号等 例如 在上面的句子中 我 想要 和 i 和 e 是这方面的单词 而空格 和逗号则不是 这样做的困难在于我希望能够
  • 文本摘要评估 - BLEU 与 ROUGE

    根据两个不同摘要系统 sys1 和 sys2 的结果和相同的参考摘要 我使用 BLEU 和 ROUGE 对它们进行了评估 问题是 sys1 的所有 ROUGE 分数均高于 sys2 ROUGE 1 ROUGE 2 ROUGE 3 ROUGE
  • 判断第一个字母是否是元音序言

    我习惯了过程式编程语言 而且我在 prolog 上遇到了一些困难 缺乏在线资源也是一个遗憾 获取给定变量的第一个字符并检查它是否是元音的最 序言 方式是什么 我想 这样的东西就是我所追求的 这都是伪代码 但这是你解决问题的方法吗 isVow
  • Jquery 检测选项卡导航的相同类和文本

    有谁有检测相同文本的经验 和班级 这是我当前的代码 ul nav li click function ul slideMove li fadeOut slow var sharedata this text ul slideMove li
  • 如何将句子或文档转换为向量?

    我们有将单词转换为向量的模型 例如 word2vec 模型 是否存在类似的模型 可以使用为单个单词学习的向量将句子 文档转换为向量 1 跳克法 以及使用它的工具 谷歌 word2vec https code google com p wor
  • Python NLP 英式英语与美式英语

    我目前正在用Python 进行NLP 工作 然而 在我的语料库中 既有英式英语也有美式英语 实现 实现 我正在考虑将英式英语转换为美式英语 但是 我没有找到一个好的工具 包来做到这一点 有什么建议么 我也找不到包 但试试这个 请注意 我必须
  • 在 Python 中识别大型字符串列表中的项目之间的文本相似性的最有效方法是什么?

    下面的代码实现了我想要实现的结果 有一个称为 引理 的字符串列表 其中包含特定类别单词的可接受形式 另一个列表称为 形式 包含在不同时期和特定语言的不同方言的大量文本中发现的单词的许多拼写变体 对于 forms 中的每个单词 我想获取 le
  • 有没有可以将 RTF 转换为纯文本的 Python 模块? [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 理想情况下 我想要一个不需要超级用户访问权限即可安装的模块或库 我在工作环境中拥有有限的特权 我一直在开
  • 单击时如何来回交换文本?

    我需要的是来回交换文本 一个间隙 到Word单击它 我不想有按钮 用户只需单击间隙的位置即可 I see 这一页 https css tricks com swapping out text five different ways 准确地描
  • 如何将焦点集中到 python Tkinter 文本小部件?

    我希望能够打开应用程序 GUI 并让它自动将光标放置到特定的文本小部件中 最好的情况是 应用程序启动后 有人就可以开始输入 而无需单击文本小部件 这只是显示问题的一个小示例 from Tkinter import root Tk Windo
  • 使用 pandas 删除停用词

    我想从数据框的列中删除停用词 列内有需要拆分的文本 例如我的数据框如下所示 ID Text 1 eat launch with me 2 go outside have fun 我想应用停用词text column所以应该分开 我试过这个
  • .NET 中有处理 Modbus 协议的好库吗? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 有谁知道有一个好的 最好是开源的 库来处理 Modbus 协议 我看过一些图书馆 但我正在寻找一些人的
  • 如何在文本集中创建所有字符组合?

    例如 我有这样的文本集 第 1 栏 a b 第 2 栏 l m n 第 3 栏 v w x y 我想将它们组合起来以获得如下输出 alv alw alx aly amv amw amx amy 这将输出 24 种文本组合 如果我只使用前两列
  • 如何清理文本中未对齐的列?

    我有一个 C 程序 它输出两列 完全不对齐 未对齐的原因是第一列中单词的长度差异很大 我有一个在 vi 中打开的输出文件 如何快速对齐这两列 我可以使用 awk perl sed 而不仅仅是 vi 7 2 工具集 另外 我们是否可以为具有两
  • 使用 Hive 计算文本变量的单词频率

    我有一个变量 每一行都是一个句子 例子 Row1 Hey how are you Rwo2 Hey Who is there 我希望输出是按单词分组的计数 Example Hey 2 How 1 are 1 我正在使用 split a bi
  • 如何减少导航图标和工具栏标题之间​​的差距?

    我的问题是导航抽屉图标和工具栏标题之间 有多余的空间 示例图像如下 工具栏的xml视图是
  • 推广开源项目[重复]

    这个问题在这里已经有答案了 可能的重复 在哪里可以宣传开源项目 https stackoverflow com questions 1621916 where can i advertise an open source project 我

随机推荐

  • 如何使用 OpenCv 查找图像上的角点

    我正在尝试找到图像上的角点 我不需要轮廓 只需要 4 个角点 我将使用 4 个角来改变视角 我正在使用 Opencv 但我需要知道找到角点的步骤以及我将使用什么函数 My images will be like this without r
  • 检查 Android 设备上的 NFC 功能

    这是为了回应question https stackoverflow com questions 5805034 detecting nfc on android devices Step 1 Put this in your manife
  • Z3 对指数的支持

    我是 Z3 的新手 我试图了解它是如何工作的 以及它能做什么和不能做什么 我知道Z3至少有some通过幂 运算符支持指数 请参阅Z3py 使用 pow 函数返回未知方程 https stackoverflow com questions 3
  • 如何使用 Java 计算 Selenium WebDriver 中的 HTML 子标签数量

    在 Selenium JAVA WebDriver 中 如何计算子标签 例子 div class subcategory container div class products container div class product ro
  • MongoDB - 多对多关系?

    我很好奇如何构建一个具有多对多关系 可能有数万条记录的 MongoDB 假设您有一个餐厅数据库 可以跟踪大量餐厅以及所有入住过这些餐厅的人 因此 用户可能想要查找一个人并查看他们已签到的所有餐厅 而且还想查找一家餐厅并查看所有已签到的人 如
  • “react-native弹出”:无法识别的命令“弹出”

    我正在尝试为我的反应本机项目重新创建 ios 和 android 文件夹 据我所知 这是通过以下命令完成的 react native eject 但我收到错误 error Unrecognized command eject 我做错了什么吗
  • 从 ItemDataBound 事件中的转发器控件获取值

    如何在 ItemDataBound 事件中获取转发器控件的值 我写了下面的asp代码
  • 处理推文时使用 JSON 或正则表达式

    哪种方法更快 使用 JSON 解析器 python 2 6 或正则表达式来获取相关数据 由于数据量巨大 我认为使用一种方法与其他方法相比在时间上会有很大差异 假设你在问什么 我相信您会问 通过反序列化序列化 JSON 字符串或通过正则表达式
  • 返回 R 中别名系数的 VIF

    我想知道是否有人可以帮助我解决以下问题 当我在各种解释变量之间进行 VIF 分析时 会出现以下错误消息 test lt vif lm Spring Autumn Oct Nov Dec Jan Feb Mar Apr May Jun Jul
  • 重写 HashSet 的 Contains 方法

    有人能告诉我如何重写 HashSet 的 contains 方法以使用正则表达式匹配而不是仅使用 equals 吗 或者 如果不覆盖 我如何添加一个方法来使用正则表达式模式 基本上 我希望能够在包含字符串的 HashSet 上运行正则表达式
  • C# - 使用 HTMLAgilityPack 获取 JavaScript 变量值

    我目前有 2 个 JavaScript 变量 需要从中检索值 HTML 由一系列没有 id name 属性的嵌套 DIV 组成 是否可以使用 HTMLAgilityPack 从这些变量中检索数据 如果是这样 我将如何去做 如果不是需要什么
  • 如何在magento中添加密件抄送或抄送

    我不知道如何在以下编码中添加抄送或密件抄送 我尝试了密件抄送 但邮件无法发送 请有人帮忙 代码是 data array name gt username to user id gt to userid email gt email tele
  • 在 MyEclipse 中开发 Maven 战争应用程序值得吗?

    我的组织已做出上层决定 将 Maven 作为 Java 项目的标准构建工具 我的任务是帮助我们的本地团队将项目迁移到 Maven MyEclipse IDE 是正在发挥作用的核心工具之一 MyEclipse 似乎与 Maven 团队有着一段
  • 蟒蛇熊猫。日期对象由单独的列分割。

    我在Python pandas 中将日期写为 1 31 2010 为了应用线性回归 我想要 3 个单独的变量 天数 月数 年数 将 pandas 中包含日期的列分成 3 列的方法是什么 另一个问题是将天数相同但分为 3 组 1 10 11
  • 当测试一起运行时,所有测试中使用的外部库模拟补丁不起作用

    我正在使用 Python 的模拟库和单元测试 我正在为一个类编写单元测试 该类在其方法之一中使用外部库的函数 根据情况 该函数返回不同的值 假设我想测试 A 类 from external library import function f
  • Ubuntu 服务器上的 PHP PDO 到 MS SQL Server

    我正在尝试使用 PDO 连接到 MS SQL Server 我尝试过使用这个 db new PDO sqlsrv server server database databaseName username password 我读到不再支持 s
  • 如何将 jQuery 对象转换为字符串?

    如何将 jQuery 对象转换为字符串 我假设您需要完整的 HTML 字符串 如果是这样的话 类似这样的事情就可以解决问题 div append item of interest clone html 这有更深入的解释here http j
  • 为Excel饼图添加数据标签

    我正在绘制带有一些数据的饼图 private void DrawFractionChart Excel Worksheet activeSheet Excel ChartObjects xlCharts Excel Range xRange
  • java android - 如何将资源中的html设置为TextView?

    是否有可能将 html 从 res raw 加载到 TextView 中 我知道我可以使用 WebView 但是该死的透明度并不总是有效 并非在每个设备上 myTextView setText Html fromHtml readTxt 此
  • 开源的基于规则的模式匹配/信息提取框架? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我正在购买一个开源框架 用于编写自然语言语法规则 以通过注释进行模式匹配 您可以将其视为正则表达式 但