从 CYK 算法(自然语言处理)生成解析树的步骤

2023-12-29

我目前正在做一个涉及NLP的项目。我已经实现了 Jurafsky 和 ​​Martin(第 450 页的算法)中给出的 CKY 标识符。如此生成的表实际上将非终结符存储在表中(而不是通常的布尔值)。然而,我遇到的唯一问题是检索解析树。

下面是我的 CKY 标识符的作用的说明:

这是我的语法

          S -> NP VP 
          S -> VP 
          NP -> MODAL PRON | DET NP | NOUN VF | NOUN | DET NOUN | DET FILENAME
          MODAL -> 'MD'
          PRON -> 'PPSS' | 'PPO'
          VP -> VERB NP
          VP -> VERB VP
          VP -> ADVERB VP
          VP -> VF
          VERB -> 'VB' | 'VBN'
          NOUN -> 'NN' | 'NP'
          VF -> VERB FILENAME
          FILENAME -> 'NN' | 'NP'
          ADVERB -> 'RB'
          DET -> 'AT'

这是算法:

for j  from i to LENGTH(words) do
    table[j-1,j] = A where A -> POS(word[j])
    for i from j-2 downto 0
        for k from i+1 to j-1
            table[i,j] = Union(table[i,j], A such that A->BC)
            where B is in table[i,k] and C is in table[k,j]

这就是我的解析表填充后的样子:

现在我知道,由于 S 驻留在 [0,5] 中,因此该字符串已被解析,并且对于 k = 1 (根据 Martin 和 Jurafsky 中给出的算法),我们有 S -> table[0][2 ] 表[2][5] 即 S -> NP VP

我遇到的唯一问题是我已经能够检索所使用的规则,但它们的格式是混乱的,即不是基于它们在解析树中的出现。有人可以建议一种算法来检索正确的解析树吗?

谢谢。


您应该递归地访问表的单元格,并以与 S 节点相同的方式展开它们,直到所有内容都是终端(这样您就没有其他任何内容可以展开)。在您的示例中,您首先转到单元格 [0][2];这是一个终端,您无需执行任何操作。接下来转到[2][5],这是由[2][3]和[3][5]组成的非终结符。你访问[2][3],它是一个终端。 [3][5]是一个非终结符,由两个终结符组成。你完成了。这是一个 Python 演示:

class Node:
    '''Think this as a cell in your table'''
    def __init__(self, left, right, type, word):
        self.left = left
        self.right = right
        self.type = type
        self.word = word

# Declare terminals
t1 = Node(None,None,'MOD','can')
t2 = Node(None,None,'PRON','you')
t3 = Node(None,None,'VERB', 'eat')
t4 = Node(None,None,'DET', 'a')
t5 = Node(None,None,'NOUN','flower')

# Declare non-terminals
nt1 = Node(t1,t2, 'NP', None)
nt2 = Node(t4,t5, 'NP', None)
nt3 = Node(t3,nt2,'VP', None)
nt4 = Node(nt1,nt3,'S', None)

def unfold(node):
    # Check for a terminal
    if node.left == None and node.right == None:
        return node.word+"_"+node.type

    return "["+unfold(node.left)+" "+unfold(node.right)+"]_"+node.type

print unfold(nt4)

和输出:

[[can_MOD you_PRON]_NP [eat_VERB [a_DET flower_NOUN]_NP]_VP]_S
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从 CYK 算法(自然语言处理)生成解析树的步骤 的相关文章

  • 用于计算三角函数、对数或类似函数的算法。仅限加减法

    我正在修复 Ascota 170 古董机械可编程计算机 它已经开始工作了 现在我正在寻找一种算法来展示其功能 例如计算三角或对数表 或类似的东西 不幸的是 从数学运算来看 计算机只能进行整数的加减法 从 1E12到1E12的55个寄存器 甚
  • 如何设计一种算法来计算倒数式数学数字难题

    我一直想这样做 但每次我开始思考这个问题时 它的指数性质都会让我大吃一惊 我希望能够理解的问题解决器和代码是针对倒计时数学问题的 给定一组数字 X1 到 X5 计算如何使用数学运算将它们组合起来生成 Y 您可以应用乘法 除法 加法和减法 那
  • ANTLR4 在导入时找不到语法

    我正在尝试将 ANTLR4 语法拆分为多个文件 以便我可以更轻松地测试它们 我在 java 项目中使用 gradle 作为构建工具 两种语法都单独正确编译 但是当我将导入添加到我的主语法中时 我收到下一个编译错误 错误 110 kaneko
  • 运行时间为 O(n) 且就地排序的排序算法

    有没有运行时间为O n 并且还分类到位 在某些情况下 最好的情况是 O n 但这可能是因为项目集合已经排序 你正在看 O nlogn 一些较好的平均值 话虽如此 排序算法的 Wiki 还是相当不错的 有一个表格比较了流行的算法 说明了它们的
  • 更合适地说插入未排序动态数组的摊销 O(1) 与 O(n) ?

    这属于 stackoverflow com help on topic 中的 软件算法 在本例中 是一种将项目添加到动态未排序数组的软件算法 This is chart we made in class about the runtimes
  • 是否可以使用 fparsec 解析“越位”(基于缩进)语言?

    我希望将 FParsec 用于基于缩进的类似 python 的语言 我知道这必须在词法分析阶段完成 但 FParsec 没有词法分析阶段 是否可以使用 FParsec 或者 词法分析后如何提供它 P D 我是 F 新手 但在其他语言方面经验
  • 如何在 Java 中解析这样的 URI

    我正在尝试解析以下 URI http translate google com zh CN en 你 http translate google com zh CN 7Cen 7C E4 BD A0 但收到此错误消息 java net UR
  • Google 文档如何处理编辑冲突?

    我一直在尝试编写自己的 Javascript 编辑器 其功能类似于 Google Docs 允许多人同时使用 我不明白一件事 假设用户 A 和用户 B 直接相互连接 网络延迟为 10 毫秒 我假设编辑器使用 diff 系统 据我了解 Doc
  • 填充体积算法

    我有一个具有一定尺寸长度 宽度 高度的盒子 我有不同长度 宽度 高度的物品 是否有现有的算法可以确定放入盒子中的最佳物品 这称为装箱 切割库存 背包问题 并且是 NP 难问题 一般来说 您只能通过使用启发式方法获得近似解 请参见示例 htt
  • 一种良好且简单的随机性测量方法

    获取一长整数序列 例如 100 000 个 并返回序列随机性的测量值的最佳算法是什么 该函数应返回单个结果 如果序列并非完全随机 则返回 0 如果完全随机 则返回 1 如果序列有点随机 它可以给出介于两者之间的东西 例如0 95 可能是一个
  • 从原点开始在离散 2D 网格上迭代向外螺旋的算法

    例如 这是预期螺旋的形状 以及迭代的每个步骤 y 16 15 14 13 12 17 4 3 2 11 18 5 0 1 10 x 19 6 7 8 9 20 21 22 23 24 其中线条是 x 轴和 y 轴 以下是算法每次迭代 返回
  • String.Format 小数,带有千位分隔符和强制小数位

    我想String Format小数 使其同时具有千位分隔符和强制小数位 3 例如 Input 123456 12 78545 8 Output 123 456 120 78 545 800 我努力了 String Format 0 0 0
  • 如何在 bertopic 建模中获取每个主题的所有文档

    我有一个数据集并尝试使用 berTopic 建模将其转换为主题 但问题是 我无法获取主题的所有文档 berTopic 每个主题仅返回 3 个文档 topic model BERTopic verbose True embedding mod
  • XAML解析异常

    我有一个简单的 XAML 页面 当它作为 Visual Studio 中任何应用程序的一部分加载时 加载效果良好 但是 当我使用 ClickOnce 部署此应用程序时 出现以下异常 Type System Windows Markup Xa
  • 在任意时间范围内找到最佳日/月/年间隔的算法?

    如果您有时间表 请说 March 19 2009 July 15 2011 是否有一种算法可以将该时间范围分解为 March 19 2009 March 31 2009 complete days April 1 2009 December
  • 如何求两个地点的经纬度距离?

    我有一组位置的纬度和经度 怎么找distance从集合中的一个位置到另一个位置 有公式吗 半正矢公式假定地球是球形的 然而 地球的形状更为复杂 扁球体模型会给出更好的结果 如果需要这样的精度 你应该更好地使用文森特逆公式 See http
  • LRU算法,实现这个算法需要多少位?

    我有一个关于 LRU 算法的小问题 如果您有一个包含四个块的高速缓存 那么需要多少位来实现该算法 假设您指的是 4 路组关联缓存 完美 LRU 本质上是按照使用顺序为每一行分配一个精确的索引 您也可以将其视为 年龄 因此 4 个元素中的每一
  • 使用 Boost::Spirit 解析 time_period 表达式

    我需要使用 Boost Spirit 解析以下 EBNF 表达式 period date part time part date part time part time part hours minutes seconds date par
  • 使用 Perl 获取 值

    因此 我有一个报告工具 可以在 HTML 文件中输出作业调度统计信息 并且我希望使用 Perl 来使用这些数据 但我不知道如何单步浏览 HTML 表 我知道如何使用 jQuery 来做到这一点 find tr each function v
  • 通过 htaccess 将 PNG 解析为 PHP 仅适用于本地服务器,但不适用于网络服务器

    我用 PHP 创建了一个动态 PNG 图片 为了使用 PNG 扩展名 我创建了一个包含以下内容的 htaccess 文件 AddType application x httpd php png 在我的本地 XAMPP 服务器上 一切工作正常

随机推荐

  • 使用 ruby​​ rough gem 访问 git 日志数据?

    对于 git 存储库中的给定文件 我想查找修改该文件的最后一次提交的 SHA 以及时间戳 在命令行中 该数据对于特定文件路径的 git log 是可见的 例如 git log n 1 path to file 使用 ruby 的 git g
  • 使用 URL 打开 JQuery 选项卡,并在选项卡单击时向 URL 添加哈希值

    我正在开发一个 Web 应用程序 并且使用 JQuery UI Tabs 插件来分离数据 如果我将鼠标悬停在每个选项卡上 我可以在屏幕左下角看到该选项卡的 URL 例如 testPage com tab1 或 testPage com ta
  • WooCommerce 3.0+ 更改管理订单日期列格式

    在 WooCommerce 中 我使用下面的代码来更改订单日期列的管理订单视图格式 Woocommerce show time on order add filter post date column time custom post da
  • ++Var 和 Var++ 之间的区别[重复]

    这个问题在这里已经有答案了 在编程中 特别是在 Java 中 以下之间有什么区别 int var 0 var and int var 0 var 这会对 for 循环产生什么影响 e g for int i 0 i lt 10 i for
  • 输入字段添加点击时焦点可见

    仅当用户通过键盘导航到元素时 我才尝试有选择地在输入字段上应用大纲 根据我的理解 执行此操作的方法是删除焦点上的轮廓 但应用焦点可见 如下所示 input focus outline 2px solid transparent input
  • 使用 grep 搜索文件中的十六进制字符串

    有谁知道如何使用 grep 或类似工具来检索文件中十六进制字符串的偏移量 我有一堆十六进制转储 来自 GDB 我需要检查字符串 然后再次运行并检查值是否已更改 我努力了hexdump and dd 但问题是因为它是一个流 我丢失了文件的偏移
  • SQL - 在 A-F 之间查找名称的条件

    简单的问题 我需要一个解决方案 以便我可以找到 A F 之间的名称 包括所有以 F 开头的名称 如果您使用 BETWEEN 或 A gt value 笔记 用户将看到 2 个文本框 其中接受用户可以输入的范围 用户细化在 F 边界中走多远
  • 三星互联网强制深色模式

    我的网站是在浅色模式下设计的 不应该对任何形式的深色模式做出反应 这适用于除 Samsung Internet 之外的所有网站 每当我在三星互联网上打开网站时 它都会自动将白色背景替换为深色背景 并将字母颜色更改为白色 有谁知道如何解决这一
  • 在 neo4j 中我可以获得更简洁的 REST api 响应

    有没有一种方法可以在 neo4j 中获得更简洁的 Rest api 响应 也许只有节点数据 在每个请求上发送所有额外的数据似乎有点浪费带宽 为什么所有元数据都包含在响应中 例如 基本 api url 在整个过程中都是重复的 一旦您 有了节点
  • 使用 Dapper 进行批量插入花费的时间比预期的要长

    看完之后本文 https www gamasutra com view news 170502 Indepth SQL Server High performance inserts php我决定仔细研究一下我使用 Dapper 的方式 我
  • MapKit 注释和用户位置

    我按照本教程制作了我的第一个应用程序 http icodeblog com 2009 12 21 introduction to mapkit in iphone os 3 0 http icodeblog com 2009 12 21 i
  • .NET - 如何创建一个类,使得只有一个其他特定类可以实例化它?

    我想要进行以下设置 class Descriptor public string Name get private set public IList
  • AES 加密 PHP 到 NodeJS?

    我正在将一个小项目从 PHP 迁移到 NodeJS 其中包含一小部分 AES 加密 由于 PHP 代码运行良好 因此如下 function decysek data app key output openssl decrypt base64
  • 在 ASP.net MVC 中良好且完整地实现 RSS 提要

    我在 ASP NET MVC 中见过一些 RSS Feed 的示例 例如this https stackoverflow com questions 11915 rss feeds in aspnet mvc 以及项目中的一些示例 例如 O
  • 为什么 C、C++ 和 LISP 在嵌入式设备和机器人中如此流行?

    嵌入式设备和机器人最需要的软件语言技能似乎是 C C 和 LISP 为什么最近的语言没有进入这些应用程序 例如 Erlang http www erlang org 似乎特别适合机器人应用程序 因为它使并发编程变得更容易并且允许代码热交换
  • SQLite 支持公共表表达式吗?

    SQLite 支持公共表表达式吗 我想运行这样的查询 with temp ID Path as select ID Path from Messages select from temp 从 Sqlite 版本 3 8 3 开始 SQLit
  • 使用maven时spring配置文件放在哪里

    我正在尝试解决我的配置文件问题 我有具有此结构的 Spring MVC 应用程序 我当前的结构 src main java java classes src main resources some properties files src
  • Capistrano 3:仅在分配了角色的服务器池中的单个服务器上运行任务

    我有 20 台充当 Web 角色的服务器 我有一项任务只需要对其中一个执行 因为更改会影响共享存储 我当前的解决方案是解决这个问题的黑客 如下 寻找更好的方法 我没有大量的 ruby 或 cap 经验 task checkout proje
  • 什么是本机对象?

    什么是本机对象意味着我发现java具有与本机对象接口的对等类 Java程序可以使用JNI http java sun com developer onlineTraining Programming JDCBook jni html访问以本
  • 从 CYK 算法(自然语言处理)生成解析树的步骤

    我目前正在做一个涉及NLP的项目 我已经实现了 Jurafsky 和 Martin 第 450 页的算法 中给出的 CKY 标识符 如此生成的表实际上将非终结符存储在表中 而不是通常的布尔值 然而 我遇到的唯一问题是检索解析树 下面是我的