在段落定界符非标准的段落上拆分文本

2023-12-19

如果我的文本具有标准段落格式(空行后跟缩进),例如文本 1,则可以很容易地使用 text.split("\n\n") 提取段落。

Text 1:

      Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales   
 ante. Integer mattis eros non turpis interdum et auctor enim consectetur, etc.

      Praesent molestie suscipit bibendum. Donec justo purus, venenatis eget convallis sed, feugiat    
 vitae velit,etc.

但是,如果我的文本具有非标准段落格式(例如文本 2)怎么办?没有空行和可变的前导空格。

Text 2:

      Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales   
 ante. Integer mattis eros non turpis interdum et auctor enim consectetur, etc.
    Praesent molestie suscipit bibendum. Donec justo purus, venenatis eget convallis sed, feugiat    
 vitae velit,etc.

由于前导空格对于标准和非标准格式都很常见,因此我考虑过在正则表达式匹配上索引前导空格并以这种方式获取段落分隔符,但必须有一种更优雅的方法来做到这一点。


您提出的正则表达式解决方案看起来足够优雅:

re.split('\s{4,}',text)

这使用 4 个连续的空白字符作为段落分隔符。您可以使用'\n\s{3,}'或者类似的东西,如果它更合适的话。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在段落定界符非标准的段落上拆分文本 的相关文章

随机推荐