使用正则表达式对使用“但是”一词的句子进行分块

2024-01-21

我正在尝试使用正则表达式在“但是”一词（或任何其他协调连词）处对句子进行分块。它不起作用...

sentence = nltk.pos_tag(word_tokenize("There are no large collections present but there is spinal canal stenosis."))
result = nltk.RegexpParser(grammar).parse(sentence)
DigDug = nltk.RegexpParser(r'CHUNK: {.*<CC>.*}')
for subtree in DigDug.parse(sentence).subtrees(): 
    if subtree.label() == 'CHUNK': print(subtree.node())

我需要拆分句子"There are no large collections present but there is spinal canal stenosis."分为两部分：

1. "There are no large collections present"
2. "there is spinal canal stenosis."

我还希望使用相同的代码在“and”和其他并列连词（CC）词处分割句子。但我的代码不起作用。请帮忙。

我认为你可以简单地做

import re
result = re.split(r"\s+(?:but|and)\s+", sentence)

where

`\s`        Match a single character that is a "whitespace character" (spaces, tabs, line breaks, etc.)
`+`         Between one and unlimited times, as many times as possible, giving back as needed (greedy)
`(?:`       Match the regular expression below, do not capture
            Match either the regular expression below (attempting the next alternative only if this one fails)
  `but`     Match the characters "but" literally
  `|`       Or match regular expression number 2 below (the entire group fails if this one fails to match)
  `and`     Match the characters "and" literally
)
`\s`        Match a single character that is a "whitespace character" (spaces, tabs, line breaks, etc.)
`+`         Between one and unlimited times, as many times as possible, giving back as needed (greedy)

您可以在其中添加更多连词，并用竖线字符分隔|。但请注意，这些单词不包含在正则表达式中具有特殊含义的字符。如果有疑问，请先使用以下命令逃避它们re.escape(word)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

NLTK

chunking

使用正则表达式对使用“但是”一词的句子进行分块的相关文章

计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
Javascript正则表达式用于字母字符和空格？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我需要一个
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
使用正则表达式提取两个短语之间的所有单词[重复]

这个问题在这里已经有答案了我正在尝试使用以下正则表达式提取两个短语之间的所有单词 b item W w W 0 2 1 one W w W 0 3 business b b item W w W 0 2 3 three W w W 0 3
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的

随机推荐

从 Android 应用程序启动 Google 地图和导航器

我有一个 Android 应用程序它允许用户打开谷歌地图或导航器来显示某个地址此功能过去是有效的但现在我收到以下错误并且应用程序崩溃错误 AndroidRuntime 2165 android content ActivityNot
Windows 桌面上的 cygwin ssh 快捷方式

我有多个需要远程访问的服务器与 Putty 相比我更喜欢 Cygwin 这样做无论如何打开我很酷的 Mintty 窗口然后输入以下命令的过程花费了太长时间 PS 我正在对这些服务器使用密钥身份验证首先我从 Windows 桌
从 apache cxf REST 响应中删除空值字段

我在用着apache cxf 2 7 11 jackson codehaus 1 9 13 spring 3 5在我的 REST 服务 Web 容器中我想知道删除的最佳方法是什么null来自 REST 响应的值字段例如我的回应现在是这
如何在 Dockerfile 中设置镜像名称？

您可以在构建自定义图像时设置图像名称如下所示 docker build t dude man v2 Will be named dude man v2 有没有办法在 Dockerfile 中定义镜像的名称这样我就不必在docker bu
子串算法

有人可以向我解释如何迭代解决子串问题吗 The problem given two strings S S1S2S3 Sn and T T1T2T3 Tm with m is less than or equal to n determin
列表中的第一项始终被选中

我有一个项目列表我希望能够导航到详细信息视图但是列表中的第一个元素始终传递给此视图这可能是什么问题 struct ContentView View var array Object Object id init property 1
排除webpack中的一些css文件

我遇到了一个问题webpack 我的项目具有以下结构文件夹结构 src js app js For importing app scss file vendor js For importing vendor scss file scss
上下文感知合并？

是否有任何用于编程语言的差异合并工具以语法感知的方式工作如 XML Diff Tool 不仅仅是逐行比较并且可以选择忽略空格我感兴趣的是一个实际上遵循语言语法和定界符的程序建议在不破坏语法正确性的情况下进行更改或者捆绑多行分隔
如何将溢出的菜单项包装到下拉列表中以创建响应式导航菜单？

我正在制作菜单我有一个包含许多列表项的菜单我想要的是当我将浏览器大小调整为小屏幕例如笔记本电脑和平板电脑时我想要溢出li s折叠并显示在下拉菜单中 Actual Menu Responsive view for the same
使用相同的 URL 替换弹出窗口 URL

我需要用相同的 URL 替换 myWindow window open 弹出窗口 URL 但不知道如何操作我相信我应该使用 setTimeout 但我不知道如何或在哪里放置它这是我正在使用的编码
如何使用react-router跳转到页面中的特定位置

我正在尝试使用 React 和 React router 构建一个视差网站在我发现的大多数react router示例中目标dom节点被替换为与路由对应的Handler var routes
使用 PIL 或 cv2 等模块在 python 中捕获屏幕的最有效方法是什么？因为它占用了很多内存

使用 PIL 或 cv2 等模块在 python 中捕获屏幕的最有效方法是什么因为它占用大量内存我想教 AI 通过屏幕抓取和整洁的方式来玩 Chrome 的恐龙游戏但它的速度很慢我努力了 import numpy as np fro
puma gem - 无法构建 gem 本机扩展

我在安装 puma gem 时收到以下错误 gem install puma Fetching puma 2 11 2 gem 100 Building native extensions This could take a while E
Keras 图像数据生成器抛出未找到文件错误？

我无法从 keras 运行简单的数据生成器代码 import os import keras as K from keras preprocessing image import ImageDataGenerator def save im
使用通配符将项目组转换为另一个项目组

我有一个目标内定义的目录列表
延长密钥库证书有效期

有什么方法可以延长密钥库或证书的有效期吗我已经创建了一个有效期为 10 年的密钥库但是由于谷歌市场的限制我需要30年的有效期证书有效性是证书签名的一部分因此无法在现有证书中更改它您唯一能做的就是颁发获取有效期更长的新证书
从 iframe 页面事件更改父级的 css

I have homepage包含 middle overlay div 最初不可见此外它包含 iframe capture 页面上有单击按钮在按钮的单击事件中我想让 middle overlay div 可见但是从另一个页面我可以
在 C/C++ 预处理器中，单独一行上的单个井号/井号 (#) 的用途是什么？

我一直在看Boost http en wikipedia org wiki Boost 28C 2B 2B libraries 29库源代码我注意到通常有单井号没有附加任何预处理器指令我通读了 GCC 预处理器手册和规范指南但找不到
async wait 不适用于回调节点（没有承诺）

大家好我很困惑为什么这不起作用这是我的连接js file function getConnection callback initPool mysql pool getConnection err conn gt if err retu
使用正则表达式对使用“但是”一词的句子进行分块

我正在尝试使用正则表达式在但是一词或任何其他协调连词处对句子进行分块它不起作用 sentence nltk pos tag word tokenize There are no large collections present

使用正则表达式对使用“但是”一词的句子进行分块

使用正则表达式对使用“但是”一词的句子进行分块 的相关文章

随机推荐

热门标签

使用正则表达式对使用“但是”一词的句子进行分块的相关文章