如何删除 BeautifulSoup 中的空格

2024-05-04

我正在使用 BeautifulSoup 解析一堆 HTML,除了一个小问题外,一切进展顺利。我想将输出保存到单行字符串中,以下内容作为我当前的输出:

    <li><span class="plaincharacterwrap break">
                    Zazzafooky but one two three!
                </span></li>
<li><span class="plaincharacterwrap break">
                    Zazzafooky2
                </span></li>
<li><span class="plaincharacterwrap break">
                    Zazzafooky3
                </span></li>

理想情况下我想要

<li><span class="plaincharacterwrap break">Zazzafooky but one two three!</span></li><li><span class="plaincharacterwrap break">Zazzafooky2</span></li>

我想删除很多多余的空白,但不一定可以使用strip(),我也不能公然删除所有空格,因为我需要保留文本。我该怎么做?这似乎是一个很常见的问题,正则表达式会显得矫枉过正,但这是唯一的方法吗?

我没有<pre>标签,这样我就可以在那里更有力一点。

再次感谢!


以下是不使用正则表达式的方法:

>>> html = """    <li><span class="plaincharacterwrap break">
...                     Zazzafooky but one two three!
...                 </span></li>
... <li><span class="plaincharacterwrap break">
...                     Zazzafooky2
...                 </span></li>
... <li><span class="plaincharacterwrap break">
...                     Zazzafooky3
...                 </span></li>
... """
>>> html = "".join(line.strip() for line in html.split("\n"))
>>> html
'<li><span class="plaincharacterwrap break">Zazzafooky but one two three!</span></li><li><span class="plaincharacterwrap break">Zazzafooky2</span></li><li><span class="plaincharacterwrap break">Zazzafooky3</span></li>'
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何删除 BeautifulSoup 中的空格 的相关文章