根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头

2024-03-25

一般来说，名词短语的中心词是位于 NP 最右边的名词，如下所示，树是父 NP 的中心词。所以



            ROOT                             
             |                                
             S                               
          ___|________________________        
         NP                           |      
      ___|_____________               |       
     |                 PP             VP     
     |             ____|____      ____|___    
     NP           |         NP   |       PRT 
  ___|_______     |         |    |        |   
 DT  JJ  NN  NN   IN       NNP  VBD       RP 
 |   |   |   |    |         |    |        |   
The old oak tree from     India fell     down

Out[40]: Tree('S', [Tree('NP', [Tree('NP', [Tree('DT', ['The'])), Tree('JJ', ['old'] ), 树('NN', ['橡树']), 树('NN', ['树'])]), 树('PP', [树('IN', ['来自']), Tree('NP', [Tree('NNP', ['印度'])])])]), Tree('VP', [Tree('VBD', ['倒下']), Tree('PRT ', [树('RP', ['向下'])])])])

下面的代码基于java实现 https://stackoverflow.com/questions/19431754/using-stanford-parsercorenlp-to-find-phrase-heads使用一个简单的规则来找到 NP 的头，但我需要基于rules https://stackoverflow.com/questions/10297345/head-finding-rules-for-noun-phrases:

parsestr='(ROOT (S (NP (NP (DT The) (JJ old) (NN oak) (NN tree)) (PP (IN from) (NP (NNP India)))) (VP (VBD fell) (PRT (RP down)))))'
def traverse(t):
    try:
        t.label()
    except AttributeError:
          return
    else:
        if t.label()=='NP':
            print 'NP:'+str(t.leaves())
            print 'NPhead:'+str(t.leaves()[-1])
            for child in t:
                 traverse(child)

        else:
            for child in t:
                traverse(child)


tree=Tree.fromstring(parsestr)
traverse(tree)

上面的代码给出了输出：

NP:['那个'、'老'、'橡树'、'树'、'来自'、'印度'] NP头：印度 NP:['那个'、'老'、'橡树'、'树'] NP头：树 NP：['印度'] NP头：印度

虽然现在它为给定的句子提供了正确的输出，但我需要合并一个条件，即仅将最右边的名词提取为 head ，目前它不检查它是否是名词（NN）

print 'NPhead:'+str(t.leaves()[-1])

因此，类似于上面代码中的 np head 条件：

t.leaves().getrightmostnoun()

迈克尔·柯林斯 (Michael Collins) 论文（附录 A） http://www.cs.columbia.edu/~mcollins/papers/thesis.ps包括 Penn Treebank 的头部查找规则，因此不一定只有最右边的名词才是头部。因此，上述条件应包含这种情况。

对于答案之一中给出的以下示例：

（NP（NP 那个发表演讲的人））回家了

主语的中心名词是 person，但是 NP the person that made the talk 的最后一个离开节点是 talk。

有内置字符串TreeNLTK 中的对象 (http://www.nltk.org/_modules/nltk/tree.html http://www.nltk.org/_modules/nltk/tree.html), see https://github.com/nltk/nltk/blob/develop/nltk/tree.py#L541 https://github.com/nltk/nltk/blob/develop/nltk/tree.py#L541.

>>> from nltk.tree import Tree
>>> parsestr='(ROOT (S (NP (NP (DT The) (JJ old) (NN oak) (NN tree)) (PP (IN from) (NP (NNP India)))) (VP (VBD fell) (PRT (RP down)))))'
>>> for i in Tree.fromstring(parsestr).subtrees():
...     if i.label() == 'NP':
...             print i
... 
(NP
  (NP (DT The) (JJ old) (NN oak) (NN tree))
  (PP (IN from) (NP (NNP India))))
(NP (DT The) (JJ old) (NN oak) (NN tree))
(NP (NNP India))


>>> for i in Tree.fromstring(parsestr).subtrees():
...     if i.label() == 'NP':
...             print i.leaves()
... 
['The', 'old', 'oak', 'tree', 'from', 'India']
['The', 'old', 'oak', 'tree']
['India']

请注意，最右边的名词并不总是 NP 的中心名词，例如

>>> s = '(ROOT (S (NP (NN Carnac) (DT the) (NN Magnificent)) (VP (VBD gave) (NP ((DT a) (NN talk))))))'
>>> Tree.fromstring(s)
Tree('ROOT', [Tree('S', [Tree('NP', [Tree('NN', ['Carnac']), Tree('DT', ['the']), Tree('NN', ['Magnificent'])]), Tree('VP', [Tree('VBD', ['gave']), Tree('NP', [Tree('', [Tree('DT', ['a']), Tree('NN', ['talk'])])])])])])
>>> for i in Tree.fromstring(s).subtrees():
...     if i.label() == 'NP':
...             print i.leaves()[-1]
... 
Magnificent
talk

可以说，Magnificent仍可作中心名词。另一个例子是当 NP 包含关系从句时：

（NP（NP 那个发表演讲的人））回家了

主语的中心名词是person但NP的最后一个离开节点the person that gave the talk is talk.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头的相关文章

Python PAM 模块的安全问题？

我有兴趣编写一个 PAM 模块该模块将利用流行的 Unix 登录身份验证机制我过去的大部分编程经验都是使用 Python 进行的并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
为什么这个算法的Big-O复杂度是O(n^2)？

我知道这个算法的大O复杂度是O n 2 但我不明白为什么 int sum 0 int i 1 j n n while i lt j sum 即使我们设定了j n n一开始我们在每次迭代期间递增 i 并递减 j 因此最终的迭代次数不应该比n
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

为什么标签在 ASP.NET 图表中消失？

Chart1 显示了所有标签但是一旦我添加第 10 个项目一半标签就消失了首先是标记
如果 QWebView 从 qresources 加载 html 文件，则不会加载任何外部资源

正如标题中所述我的问题是 qwebview 无法正确加载位于我的资源中的 html 文件如果我从资源外部将其作为普通本地文件加载它会完美加载它但这对我来说不是一个选择我想将该文件与应用程序捆绑在一起编辑顺便说一句我正在谈论来
React Hooks 静态变量：对象属性与 useRef()

在 React 函数组件中声明静态变量有什么优点或缺点useRef 钩子与简单地将它们声明为对象属性 useRef 方法 import React useRef from react const MyComponent gt const s
如何以角度禁用模板驱动表单中的所有字段

我用 Angular 5 创建了一个模板驱动表单我想首先禁用整个表单并且还希望在单击某个按钮后启用表单因此我在表单标记中添加了一个禁用属性并将其值设置为 false 如下所示这不起作用尽管
i18next 检查未使用的翻译

我想知道是否有人知道检查未使用翻译的好方法工具包我见过它用于 Rails 例如 i18n tasks 但没有用于 React 我目前正在使用react i18next 但它可以是任何可以查看您的翻译文件的内容预先非常感谢列出未使用
requestPermission：如何等待直到被授予？

Android API 23 及更高版本要求在运行时确认危险权限根据其他 StackOverflow 建议我使用 checkSelfPermissions 检查所需的权限如果需要则调用 requestPermissions 这工
以编程方式设置默认代理而不是使用 app.config

由于位于代理后面我的 Net 4 0 C 应用程序仅在存在包含以下内容的 app config 时才能工作
R中xtabs和aggregate之间的na.action不一致

我有以下数据框 x lt data frame A c Y Y Z NA B c NA TRUE FALSE TRUE C c TRUE TRUE NA FALSE 我需要计算下表xtabs A B C Y 1 2 Z 0 0
使用 PHP 发送电子邮件（防止被放入垃圾邮件文件夹）

我正在尝试使用 PHP 脚本发送电子邮件但是收件人在他她的垃圾邮件文件夹中收到它这不是所需的结果我希望将其直接发送到他们的收件箱这样我就不会必须警告他们查看垃圾邮件文件夹下面是我使用 PEAR 发送电子邮件的代码我可以进行哪
为什么 ARM 使用两条指令来屏蔽一个值？

对于以下功能 uint16 t swap const uint16 t value return value lt lt 8 value gt gt 8 为什么带 O2 的 ARM gcc 6 3 0 会产生以下程序集 swap unsig
如何删除 JavaScript 中动态生成的事件处理程序

当我单击按钮时我会看到控制台消息显示我已单击它们当我取消选中该复选框然后单击按钮时我预计不会出现控制台消息但我仍然看到它们为什么不removeEventListener删除事件监听器 const buttons document
如何以干净的方式创建通过外键与 Room DB 相关的行和子项？

这个问题在某种程度上与我的最后一个问题 https stackoverflow com q 69384937 3692177 因为这是同一个项目但现在我正努力向前迈进一步所以在我之前的问题中我只有一张桌子这次我有两个表新的第二个
为什么 git log 在传递给寻呼机时不显示 HEAD 和分支

当传递给寻呼机时 git log less watch git log https stackoverflow com q 62803231 9157799等则 HEAD gt master origin master origin HE
Pylance 无法识别新安装的 pip 软件包

我在尝试从 pip 导入新安装的软件包时收到以下错误无法解析导入皮兰斯报告缺少进口重新启动 VS Code 后 Pylance 似乎能够识别该包有没有办法解决这个问题因为它很烦人当 Pylance 没有立即检测到该模块时就会
Greasemonkey 中的函数未定义或访问对象的权限被拒绝

我正在开发一个 Greasemonkey 脚本该脚本将一个按钮注入聊天系统 Gitter 允许您发送默认消息不是垃圾邮件管理员可以发送类似行为准则的消息假设我已经注入了一个按钮
为 Flask-CORS 指定域

我有一个 Python 脚本作为 Web api 许多域会调用它来获取他们想要的数据因此为了使其可行我需要启用 CORS 我通读了 Flask 文档但没有找到指定多个域以允许 CORS 的方法以下是启用 CORS 的代码片段 fr
访问 VBA 循环（无响应）

我正在循环访问记录集以执行一些基本功能或编辑通常对于包含超过 50 条记录的记录集访问将停止响应 I have me repaint在循环命令之前但窗口始终冻结并且访问标题栏显示未响应知道如何解决这个问题吗 Thanks Dav
缺少 google-services.json 并运行“make bootstrap”（Kickstarter 应用程序 android studio）

当我尝试运行该应用程序时遇到了此谷歌服务缺失错误来自 GitHub 的 Kickstarter https github com kickstarter android oss在 Android Studio 中试图寻找答案我发现我应
将用户输入循环附加到列表中

我是 python 编程新手正在用它做一些实验希望我的问题不太愚蠢我正在编写一个小程序将输入添加到列表中并使用 while 循环在输入等于 4 时打印它问题是它永远不会停止添加输入和打印列表我的代码是 S input L wh
根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头

一般来说名词短语的中心词是位于 NP 最右边的名词如下所示树是父 NP 的中心词所以 ROOT S NP PP

根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头

根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头 的相关文章

随机推荐

热门标签

根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头的相关文章