如果我的文本具有标准段落格式(空行后跟缩进),例如文本 1,则可以很容易地使用 text.split("\n\n") 提取段落。
Text 1:
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales
ante. Integer mattis eros non turpis interdum et auctor enim consectetur, etc.
Praesent molestie suscipit bibendum. Donec justo purus, venenatis eget convallis sed, feugiat
vitae velit,etc.
但是,如果我的文本具有非标准段落格式(例如文本 2)怎么办?没有空行和可变的前导空格。
Text 2:
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales
ante. Integer mattis eros non turpis interdum et auctor enim consectetur, etc.
Praesent molestie suscipit bibendum. Donec justo purus, venenatis eget convallis sed, feugiat
vitae velit,etc.
由于前导空格对于标准和非标准格式都很常见,因此我考虑过在正则表达式匹配上索引前导空格并以这种方式获取段落分隔符,但必须有一种更优雅的方法来做到这一点。