BeautifulSoup：只要进入标签内部，无论有多少个封闭标签

2024-02-04

我正在尝试从中删除所有内部 html<p>使用 BeautifulSoup 的网页中的元素。有内部标签，但我不在乎，我只想获取内部文本。

例如，对于：

<p>Red</p>
<p><i>Blue</i></p>
<p>Yellow</p>
<p>Light <b>green</b></p>

我怎样才能提取：

Red
Blue
Yellow
Light green

Neither .string nor .contents[0]做我需要的。也没有.extract()，因为我不想提前指定内部标签 - 我想处理任何可能发生的情况。

BeautifulSoup 中是否有“仅获取可见 HTML”类型的方法？

- - 更新 - - -

根据建议，尝试：

soup = BeautifulSoup(open("test.html"))
p_tags = soup.findAll('p',text=True)
for i, p_tag in enumerate(p_tags): 
    print str(i) + p_tag

但这并没有帮助 - 它打印出：

0Red
1

2Blue
3

4Yellow
5

6Light 
7green
8

简短回答：soup.findAll(text=True)

这个已经回答过了，在 StackOverflow 上 https://stackoverflow.com/questions/1936466/beautifulsoup-grab-visible-webpage-text并在BeautifulSoup 文档 http://www.crummy.com/software/BeautifulSoup/documentation.html#Advanced%20Topics.

UPDATE:

为了澄清这一点，一段工作代码：

>>> txt = """\
... <p>Red</p>
... <p><i>Blue</i></p>
... <p>Yellow</p>
... <p>Light <b>green</b></p>
... """
>>> import BeautifulSoup
>>> BeautifulSoup.__version__
'3.0.7a'
>>> soup = BeautifulSoup.BeautifulSoup(txt)
>>> for node in soup.findAll('p'):
...     print ''.join(node.findAll(text=True))

Red
Blue
Yellow
Light green

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

BeautifulSoup：只要进入标签内部，无论有多少个封闭标签的相关文章

(discord.py) 尝试更改成员角色时，“用户”对象没有属性“角色”

因此我正在尝试编写一个机器人让某人在命令中指定的主持人指定的一段时间内暂停角色我知道该变量称为小时即使它目前以秒为单位我稍后会解决这个问题基本上它是由主持人在消息暂停 personmention numberofhours
尽管极其懒惰，但如何在 Python 中模拟 IMAP 服务器？

我很好奇是否有一种简单的方法来模拟 IMAP 服务器例如imaplib模块在Python中 without做很多工作是否有预先存在的解决方案理想情况下我可以连接到现有的 IMAP 服务器进行转储并让模拟服务器在真实的邮箱电子
下载 PyQt6 的 Qt Designer 并使用 pyuic6 将 .ui 文件转换为 .py 文件

如何下载 PyQt6 的 QtDesigner 如果没有适用于 PyQt6 的 QtDesigner 我也可以使用 PyQt5 的 QtDesigner 但是如何将此 ui 文件转换为使用 PyQt6 库而不是 PyQt5 的 py 文件
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

扩展程序和小书签的内容安全策略

Github有以下内容内容安全政策 https w3c github io webappsec specs content security policy 内容安全策略默认 src 脚本 src asset cdn github com
无法在 Yosemite DP 7 上安装 Cocoapods

我在安装在单独分区上的 Yosemite DP 7 上安装 Cocoapods 时遇到问题我已经尝试按照上找到的说明进行操作Cocoapods 与 Xcode 6 和 10 10 Yosemite https stackoverflow
使用 JavaScript 获取 div id

这是一些 HTML div class results div something div div something else div div blah blah blah div div etc div div 现在如果我可以使用 jQ
从多个 hdf5 组创建数据集

从多个 hdf5 组创建数据集团体代码 np array hdf get all my groups 然后我添加了用于从组创建数据集的代码 with h5py File train h5 w as hdf hdf create datas
SQLite 内存数据库的优点[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我今天从一本关于 SQLite 的书中读到了关键字 memory 但它只说了它是什么如何使用而且解释太短了所以我在这里搜索了更多
React js 日期选择器的多个实例

如果我使用日期选择器的多个实例我在更新反应日期选择器上的日期时遇到问题日期选择器组件
在Python中快速找到给定大小的所有连通子图的方法？

注快速解决方案在answer https stackoverflow com a 75751315 12842085然而需要进一步改进速度给定一个无向稀疏连接图G with n顶点我正在寻找一种快速的方法来找到所有连接的子图G wi
使用 SSH 的 Laravel MySql 数据库连接

我有几个想要访问的远程数据库但它们位于只能通过 SSH 使用密钥访问的服务器上 In Sequel Pro I connect to this remote DB something like this 我将如何配置我的 Laravel
如何在 WordPress 中设置动态 `home` 和 `siteurl`？

我使用动态配置多语言设置locale筛选其中获取子域名来确定语言 function load custom language locale get the locale code according to the sub domain n
用 python 生成/合成声音？

是否有可能让 python 生成像正弦波这样的简单声音有可用的模块吗如果没有您将如何创建自己的另外您是否需要某种主机环境让 python 运行才能播放声音还是可以通过从终端进行调用来实现如果答案取决于操作系统我使用的是 Ma
特征缩放后重新缩放，线性回归

似乎是一个基本问题但我需要在梯度下降线性回归的实现中使用特征缩放获取每个特征值减去平均值然后除以标准差完成后我希望将权重和回归线重新调整为原始数据我只使用一个特征加上 y 轴截距项使用缩放数据获得权重后如何更改权重以便
使用 Wiremock 进行存根 - WithBodyFile 位置除 _files 之外

Wiremock 文档指出在中指定的文件的位置与正文文件应该在src 测试资源 files 我想要文件src test resources Testing ABC Testcase2 myfile xml 有什么办法可以实现这个目标吗
幻灯片内容/页面过渡

我正在尝试重新创建就像他们在 gimmebar com 上克服的那样 https gimmebar com collection 4ecd439c2f0aaad734000022 front end styleguides 单击图像时当前
查找 Python 模块的源代码

我使用 PyCharm 作为我的编辑器似乎它的表现不佳某些子模块 https youtrack jetbrains com issue PY 13124 namely numpy random normal 不要灰心我找到了哪里nump
自定义会员资格提供程序中的 Unity 依赖项注入

我有 ASP NET MVC3 项目我想在其中使用自定义成员资格提供程序我还想使用 Unity 来解决我的依赖注入问题这是来自 Global asax 的代码 protected void Application Start Area
android: singleline = true 不适用于 edittext

我想将编辑文本条目限制为一行但是当我添加该行时android singleline true 提示消失输入26个字符后光标向下这是我的 XML 代码
AngularJS 指令从控制器访问属性

我正在尝试访问控制器函数中指令的属性然而当我访问它时它是未定义的我注意到如果我做一个简单的计时器它就可以工作有没有办法仅在指令及其范围准备好并设置为使用之后才执行代码我摆弄了它确保您的控制台已打开 http jsfiddle
将值从一种形式传递到另一种形式 (C#)

我的程序中有一个搜索表单当用户双击搜索表单上的 dgv 的单元格时我希望程序关闭该表单并跳转到主表单上的项目我通过使用唯一的 ID 来标识每个项目来做到这一点我正在尝试将行 id 的值传递给其他表单问题是它说我每次都传递零值
错误：获取临时地址 [-fpermissive]

我已经研究了这个问题几个小时但毫无结果基本上我有 struct rectangle int x y w h rectangle player RegionCoordinates Region Coord rectangle temp t
BeautifulSoup：只要进入标签内部，无论有多少个封闭标签

我正在尝试从中删除所有内部 html p 使用 BeautifulSoup 的网页中的元素有内部标签但我不在乎我只想获取内部文本例如对于 p p Red p p i Blue i p p Yellow p p Light b g

BeautifulSoup：只要进入标签内部，无论有多少个封闭标签

BeautifulSoup：只要进入标签内部，无论有多少个封闭标签 的相关文章

随机推荐

热门标签

BeautifulSoup：只要进入标签内部，无论有多少个封闭标签的相关文章