使用 nltk 分割句子，同时保留引号

2024-04-21

我正在使用 nltk 将文本拆分为句子单元。但是，我需要将包含引号的句子提取为一个单元。现在，每个句子，即使它在引用中，也会被提取为一个单独的部分。

这是我尝试将其提取为单个单元的示例：

"This is a sentence. This is also a sentence," said the cat.

现在我有这个代码：

import nltk.data
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

text = 'This is a sentence. This is also a sentence," said the cat.'

print '\n-----\n'.join(tokenizer.tokenize(text, realign_boundaries=True))

这工作得很好，但我想维护带有引号的句子，即使引号本身包含多个句子。

上面的代码产生：

This is a sentence.
-----
This is also a sentence," said the cat.

我试图将整个文本提取为一个单元：

"This is a sentence. This is also a sentence," said the cat.

有没有一种简单的方法可以使用 nltk 来做到这一点，或者我应该使用正则表达式？开始使用 nltk 的简单性给我留下了深刻的印象，但现在我陷入了困境。

如果我正确理解问题，那么这个正则表达式应该可以做到：

import re

text = '"This is a sentence. This is also a sentence," said the cat.'

for grp in re.findall(r'"[^"]*\."|("[^"]*")*([^".]*\.)', text):
    print "".join(grp)

它是 2 个模式 or 的组合。第一个找到普通的引用句子。第二个查找普通句子或带有引号的句子，后跟句点。如果您有更复杂的句子，可能需要进一步调整。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

python27

NLTK

使用 nltk 分割句子，同时保留引号的相关文章

将数据从 python pandas 数据框导出或写入 MS Access 表

我正在尝试将数据从 python pandas 数据框导出到现有的 MS Access 表我想用已更新的数据替换 MS Access 表在 python 中我尝试使用 pandas to sql 但收到错误消息我觉得很奇怪使用 p
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
无法在 Python 3 中导入 cProfile

我试图将 cProfile 模块导入 Python 3 3 0 但出现以下错误 Traceback most recent call last File
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from

随机推荐

Ecma6，Object.assign 不进行深层复制[重复]

这个问题在这里已经有答案了 dst a 1 src edf zyx right Object assign dst src src edf zyx wrong console log dst edf zyx 我期待看到 right 作为输出
如何用 C 语言从串行（SPI）连接读取数据？

我正在尝试编写一个程序该程序将安装在 Linux MCU Raspberry Pi 上该程序将读取从另一个 MCU 我将自己构建的自制程序发送到它的串行数据我研究了如何做到这一点并认为我有大局但仍然缺少一些东西其一我需要启
没有“+=”候选者产生预期的上下文结果类型“Int”[重复]

这个问题在这里已经有答案了我一直在更新 Swift 3 的 Swift 代码真的很兴奋到目前为止一切顺利但我确实遇到了一些我似乎无法更新的代码我知道我错过了一些非常简单的东西但我就是看不出是什么这是我在 Swift 2 2 中
如何获取 Facebook 元的 fb:app_id

我们的业务简介页面为http facebook com geoflakes http facebook com geoflakes 我可以从中获取它的 idhttp graph facebook com geoflakes http gra
软件包“BluetoothSDK.pkg”不受信任

我刚刚将我的操作系统重置为 10 7 我的 mac 可以运行的最新版本并下载了 Xcode 每当我尝试安装较旧的 iOS 模拟器时都会出现错误The package iPhoneSimulator pkg is untrusted 安装
在 GUI 内的子图中添加滚动条

如何向子图添加滚动条我已经阅读了很多教程但它们似乎很难理解例如滚动图形演示 http www mathworks com matlabcentral fileexchange 5253 scrolling figure demo 有
检查物化视图是否已填充

使用 postgres 9 5 2 python 客户端有什么方法可以检查是否使用查询填充了物化视图一个不会发出警告的视图未填充的视图快速回答 SELECT relispopulated FROM pg class WHERE rel
通过 SSH 隧道连接到 gitosis 服务器

我的 MacBook 上有一个 SSH 隧道设置就像这样 ssh o ServerAliveInterval 3 N L 22222 gitosis server 22 email protected cdn cgi l email pr
在自己的处理程序中捕获信号

include
Python 3.x 中长整型中的 L 后缀

在Python 2 x中有一个L长整型后的后缀由于 Python 3 将所有整数视为长整数因此这一点已被删除从Python 3 0 的新增功能 https docs python org 3 0 whatsnew 3 0 html i
动态行跨度php while循环

i have two tables one item table and customer table 在表中您可以看到第二个项目 ID 1002 有两个条目我想将 colspan 添加到该项目的第 1 列和第 3 列 table tr
嵌套绑定和管道转换

为了减少冗余的 XAML 标记我尝试获取一般填充的单选按钮类型选择控件即我使用ItemsControl与枚举为ItemsSource并创建一个 DataTemplate 通过检查项目的枚举值是否与当前设置相同来显示选择了哪个项目仅使用
JIRA REST API 获取工作日志 - “您无权查看指定问题”

我想获取 Jira 上指定问题的工作日志根据这个文件https docs atlassian com jira REST latest d2e774 https docs atlassian com jira REST latest d2
冬眠混乱。 GA、GA 和最终版本之间有什么区别？兼容性？存储库？

谁能解释一下 1 ga GA 和 Hibernate 最终版本之间的区别 2 我应该使用maven存储库还是jboss nexus存储库 3 为什么最新的兼容性矩阵 http community jboss org wiki Hiberna
已经使用严格时是否有必要使用警告？

代码如下 use strict use warnings Is use warnings 这里有必要吗是的这是必要的 use strict and use warnings做不同的事情来自strict模块的联机帮助页 strict P
如何在 Silverlight 中按首字母对列表中的项目进行分组？

我有一个列表框我将排序的字符串列表绑定到其中我想显示带有宣布新信件的分隔线标题的列表类似于 iPhone 上的联系人列表有人知道如何实现这个目标吗也许使用 ListBox 不是正确的想法我正在使用适用于 Windows
Android SDK应用程序加载库失败

嘿嘿我收到了和这个人一样的错误消息 Android NDK 应用程序无法加载库 https stackoverflow com questions 12022990 android ndk app failed to load libra
在 iOS 中以编程方式拨打带有访问代码的电话号码

如何在 iOS 中以编程方式拨打包含号码和访问代码的电话号码例如号码 900 3440 567访问代码 65445 UIDevice device UIDevice currentDevice if device model isEqu
Python创建大字典时内存错误

我正在尝试处理 3GB XML 文件并且在读取文件并将一些数据存储在字典中的循环中间遇到内存错误 class Node object def init self osmid latitude longitude self osmid in
使用 nltk 分割句子，同时保留引号

我正在使用 nltk 将文本拆分为句子单元但是我需要将包含引号的句子提取为一个单元现在每个句子即使它在引用中也会被提取为一个单独的部分这是我尝试将其提取为单个单元的示例 This is a sentence This is a

使用 nltk 分割句子，同时保留引号

使用 nltk 分割句子，同时保留引号 的相关文章

随机推荐

热门标签

使用 nltk 分割句子，同时保留引号的相关文章