在段落定界符非标准的段落上拆分文本

2023-12-19

如果我的文本具有标准段落格式（空行后跟缩进），例如文本 1，则可以很容易地使用 text.split("\n\n") 提取段落。

Text 1:

      Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales   
 ante. Integer mattis eros non turpis interdum et auctor enim consectetur, etc.

      Praesent molestie suscipit bibendum. Donec justo purus, venenatis eget convallis sed, feugiat    
 vitae velit,etc.

但是，如果我的文本具有非标准段落格式（例如文本 2）怎么办？没有空行和可变的前导空格。

Text 2:

      Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales   
 ante. Integer mattis eros non turpis interdum et auctor enim consectetur, etc.
    Praesent molestie suscipit bibendum. Donec justo purus, venenatis eget convallis sed, feugiat    
 vitae velit,etc.

由于前导空格对于标准和非标准格式都很常见，因此我考虑过在正则表达式匹配上索引前导空格并以这种方式获取段落分隔符，但必须有一种更优雅的方法来做到这一点。

您提出的正则表达式解决方案看起来足够优雅：

re.split('\s{4,}',text)

这使用 4 个连续的空白字符作为段落分隔符。您可以使用'\n\s{3,}'或者类似的东西，如果它更合适的话。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

textprocessing

在段落定界符非标准的段落上拆分文本的相关文章

如何替换 Pandas Dataframe 中不在列表中的所有值？ [复制]

这个问题在这里已经有答案了我有一个值列表如何替换 Dataframe 列中不在给定值列表中的所有值例如 gt gt gt df pd DataFrame D ND D garbage columns S gt gt gt df S 0
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是

随机推荐

Git 不会忽略 .gitignore 中的某些 Xcode 文件

我是 Git 新手我正在使用它来备份我正在处理的 iPhone 项目我添加了更新时 Git 应忽略的文件列表 xcode 文件但是当我提交更改时此 perspectivev3 位于我的 gitignore 中文件不断显示有谁知道
Spring中的策略模式和依赖注入

我有一个Strategy接口它的实现是策略A and 策略B 两者都定义为成分的他们有一个 Autowired属性也是如此我该如何根据字符串值获取其中之一的实例这是我的控制器的操作应该执行该策略 RequestMapping b
在登录时从 Azure Active Directory 生成环回用户（反应本机应用程序）的最佳实践是什么？

我有一个带有expo sdk的react native应用程序使用loopback 3作为我的后端我试图向其中添加Azure Active Directory授权和身份验证以便我的用户可以使用他们的工作电子邮件和密码登录我正在考虑如
在根 IObservable 的生命周期内将没有最终订阅者的“中间 IObservables”保留在内存中

例如考虑一下 public IDisposable Subscribe
lambda 中使用的 Java 8 流变量应该是最终的或实际上最终的[重复]

这个问题在这里已经有答案了这个问题已经被问到了但今天我发现了一些奇怪的事情对于以下代码 public static List
如何在Windows上设置pthreads？

我在 Windows 上找到了 pthreads 的实现here http www sourceware org pthreads win32 但我无法让它正常工作谁能帮我安装 pthreads 吗比如将 DLL lib 和 h 文件放
如何使用ajax将数组从php返回到javascript

我有这个ajax代码 xmlhttp new XMLHttpRequest xmlhttp onreadystatechange function if xmlhttp readyState 4 xmlhttp status 200 doc
模块文件的部署目标是 ios9.0 v9.0 和 Xcode 7 / Swift 2

我有一个项目使用一些我通过 cocoapods 安装的模块其中之一是Charts https github com danielgindi ios charts 为了将我的项目从 Swift 1 2 迁移到 Swift 2 我已经完成了首
Android - Youtube API V3 搜索不起作用

我在集成 youtube v3 API 时遇到了困难我尝试了中给出的所有可能的解决方案YouTube API 密钥 https stackoverflow com questions 39543105 youtube api key 39
JavaScript - 使代理无法检测

据我了解 ES 规范是这么说的Proxy 用于代理对象函数和类的全局构造函数不可检测这意味着如果我代理一个函数使用该代理函数的任何人都无法检测到我使用了代理然而显然我误解了它因为代理功能是可以检测到的例如 new Proxy
php SQL Server mssql_select_db 错误

直到昨天我一直在 IIS 7 上使用 PHP 5 愉快地连接到 SQL Server Express 2005 昨天我在选择数据库时开始出现错误这会输出以下内容将数据库上下文更改为数据库无法选择数据库
使用按位运算

您多久使用按位运算黑客来执行某种操作优化在什么样的情况下才真正有用呢示例而不是使用 if if data c gt 128 in a loop sum data c 你写 int t data c 128 gt gt 31 su
在VS2010中调试Win32 MFC应用程序时显示控制台窗口

这里我有一个MFC项目我想在按 F5 时也看到控制台窗口然后我就可以看到输出了我可以在项目设置中进行一些配置以在不更改代码的情况下启用此功能吗 Thanks 解决了打开项目的属性页对话框有关详细信息请参阅设置 Visual C
使用 Verisign OCSP 服务器验证证书

我正在尝试使用 Verisign 的 OCSP 服务器来验证其颁发的证书例如 amazon com 我有颁发者证书很难找到以及amazon 0证书我正在使用 openSSL 但我似乎无法获得正确的 OCSP 响应者证书来验证响应 o
OR 在自定义条件格式公式中

在 Google 表格中我有一个这样的表格 A B C D B color color none none color 我想为包含的单元格的背景着色A or B 有没有任何自定义公式可以帮助解决这个问题假设相关行是第一行请选择它并尝试
什么是进程的实时优先级

ps o p 还提供 rtprio 和 prio 有什么不同如果您正在使用实时调度程序这意味着如果进程由实时调度程序控制运行那么 rtprio 可能是相关的 prio 与默认调度程序 sched 相关通常 RT 进程默认具有系统范围
如何允许用户从Android的内部和外部存储器中仅选择pdf文件

由于我可以打开下载文件夹但 PDF 看起来已禁用因此我无法选择 PDF 文件还有其他方法可以实现这一目标吗这是按钮点击的代码 case R id pdf Upload Intent intent new Intent inten
用于 Xcode 4.x 的 CS106B 库

是否有 CS106B 的斯坦福 C 库版本可与 Xcode 4 x 一起使用 iTunes U 视频已有大约 4 年历史讲义中提到的库与 Xcode 4 x 10 7 3 不兼容我已经尝试安装 Xcode 3 但它在启动时崩溃因此这不
动态宽度 DIV 位于静态宽度 DIV 旁边

一切都在标题中我试图将页面左侧的 div 设置为静态宽度 170px 这很好用我遇到的问题是在它旁边添加一个 div 它会缩放以适应剩余的宽度我可以在这里使用一个简单的方法吗在右侧 div 上只需设置边距 style margin
在段落定界符非标准的段落上拆分文本

如果我的文本具有标准段落格式空行后跟缩进例如文本 1 则可以很容易地使用 text split n n 提取段落 Text 1 Lorem ipsum dolor sit amet consectetur adipiscing elit

在段落定界符非标准的段落上拆分文本

在段落定界符非标准的段落上拆分文本 的相关文章

随机推荐

热门标签

在段落定界符非标准的段落上拆分文本的相关文章