使用 Beautiful Soup - Python 查找 HTML 中 1 级内的所有文本

2024-05-02

我需要用美丽的汤来完成以下任务

HTML 示例

<div id = "div1">
 Text1
 <div id="div2>
   Text2
   <div id="div3">
    Text3
   </div>
 </div>
</div>

我需要对此进行搜索，以便在列表的单独实例中返回给我

Text1
Text2
Text3

我尝试执行 findAll('div')，但它多次重复相同的文本，即它会返回

Text1 Text2 Text3
Text2 Text3
Text3

好吧，你的问题是.text还包括来自所有子节点的文本。您必须手动获取那些文本节点即时节点的子节点。此外，给定的文本节点内可能有多个文本节点，例如：

<div>
    Hello
        <div>
            foobar
        </div>
    world!
</div>

您希望如何将它们连接起来？这是一个用空格连接它们的函数：

def extract_text(node):
    return ' '.join(t.strip() for t in node(text=True, recursive=False))

以我的例子：

In [27]: t = """
<div>
    Hello
        <div>
            foobar
        </div>
    world!
</div>"""

In [28]: soup = BeautifulSoup(t)

In [29]: map(extract_text, soup('div'))
Out[29]: [u'Hello world!', u'foobar']

还有你的例子：

In [32]: t = """
<div id = "div1">
 Text1
 <div id="div2">
   Text2
   <div id="div3">
    Text3
   </div>
 </div>
</div>"""

In [33]: soup = BeautifulSoup(t)

In [34]: map(extract_text, soup('div'))
Out[34]: [u'Text1 ', u'Text2 ', u'Text3']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

htmlparsing

beautifulsoup

findAll

使用 Beautiful Soup - Python 查找 HTML 中 1 级内的所有文本的相关文章

将tensorflow 2.0 BatchDataset转换为numpy数组

我有这个代码 train images test images tf keras datasets mnist load data train dataset tf data Dataset from tensor slices train
从正在运行的 python 脚本检测优化标志是否为 -O 或 -OO

有时我想生成一个子进程其优化标志与启动父进程时使用的优化标志相同我可以使用类似的东西 optimize not debug 但这样我就可以匹配两者 O and OO flags 是否有一些 python 内部状态包含该信息经过一番深
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
如何确定非阻塞套接字是否真正连接？

这个问题不仅限于Python 这是一个一般的套接字问题我有一个非阻塞套接字想要连接到一台可访问的机器在另一端该端口不存在为什么 select 仍然成功我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
在python中将文本文件解析为列表

我对 Python 完全陌生我正在尝试读取包含单词和数字组合的 txt 文件我可以很好地读取 txt 文件但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

我正在尝试找到解决方案但无法理解我做错了什么在我的 Linux 服务器上我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
PIL Image.size 返回相反的宽度/高度

使用PIL确定图像的宽度和高度在特定图像上幸运的是只有这一个但这很麻烦从 image size 返回的宽度高度是相反的图片 http storage googleapis com cookila 533ebf752b9d1f7c
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
如何从 Dockerfile 安装 Python 3.7 和 Pip

我正在尝试构建基于 Ubuntu 18 04 的自定义 Docker 映像 Ubuntu 预装了 Python 3 6 但我想 1 安装 Python 3 7 2 将其设置为默认 Python 版本这样就可以使用python代替pytho
“char”/“character”类型的类型提示

char 或 character 没有内置的原始类型因此显然必须使用长度为 1 的字符串但是为了暗示这一点并暗示它应该被视为一个字符如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
获取列表中倒数第二个元素[重复]

这个问题在这里已经有答案了我可以通过以下方式获取列表的倒数第二个元素 gt gt gt lst a b c d e f gt gt gt print lst len lst 2 e 有没有比使用更好的方法print lst len lst
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
conda-env list / conda info --envs 如何查找环境？

我一直在尝试 anaconda miniconda 因为我的用户使用随 miniconda 安装的结构生物学程序并且作者都没有 A 考虑到可能存在其他 miniconda 应用程序 B 他们的程序将在多用户环境中使用因此使用 Arch
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
Scipy 稀疏 Cumsum

假设我有一个scipy sparse csr matrix代表下面的值 0 0 1 2 0 3 0 4 1 0 0 2 0 3 4 0 我想就地计算非零值的累积和这会将数组更改为 0 0 1 3 0 6 0 10 1 0 0 3 0 6

随机推荐

CoreData 多对多添加错误

不确定我在这里做错了什么 School has a to many to Student and Student has its inverse 一点测试代码如下 class Student interface School NSManag
具有自定义背景的 android textInputEditText 无法正常工作

我在 textInputLayout 中使用 textInputEditText 我必须为我的 editText 设置背景才能为我的 editText 实现边框视图但是当我在 textInputLayout 上调用 setError 时
如何在 Android Studio 中为目标添加系统映像

我有一个选项呈灰色我必须完成该选项才能推进项目它说 No system images installed for this target 这个答案适用于 Eclipse 但我不确定是否有 Android Studio 的等效项无法创建
在 Java 8 中，如何使用 lambda 将 Map 转换为另一个 Map？

我刚刚开始研究 Java 8 并尝试 lambda 我想我应该尝试重写我最近写的一个非常简单的东西我需要将字符串到列的映射转换为另一个字符串到列的映射其中新映射中的列是第一个映射中的列的防御副本列有一个复制构造函数到目前为止我最接近
如何查明我的 Mac 上安装了哪些 Python 库？

我刚刚开始使用 Python 发现我可以导入各种库如何找出我的 Mac 上存在哪些可以导入的库我如何找出它们包含哪些功能我似乎记得使用一些网络服务器类型的东西来浏览本地帮助文件但我可能已经想象到了从 Python REPL 命令行
ProviderManifestToken 2008 或 2012

应用程序 NET 4 5 C 使用 EF6 和数据库优先方法支持 SQL Server 2008R2 2012 和 2014 这个问题是关于ProviderManifestToken自动生成的 edmx 文件的属性根据使用哪个版本的数据
org.hibernate.AssertionFailure：例如无法执行取消删除

当我尝试在一些删除操作后进行读取时我收到此休眠断言错误我找不到任何有关此无法执行取消删除错误的信息除了源代码 https github com hibernate hibernate orm blob master hiberna
git：显示所有已修改的文件 - 已暂存和未暂存

我需要一个命令给我所有修改过的文件这包括暂存即新添加的文件和非暂存更改在普通列表我可以在脚本中使用它虽然这个问题可能听起来很熟悉但我只找到接近我想要做的命令 git ls files m 列出非分阶段修改但忽略了上演的和新的
在 Ionic/Cordova 中接收 URL

我正在尝试设置一种从另一个应用程序接收网址的方法就像您在浏览器中单击共享然后将链接发送到另一个应用程序我的应用程序我发现这个科尔多瓦插件 https github com Initsogar cordova webintent
chcp 65001 代码页导致程序终止且没有任何错误

Problem 当我想要的时候问题就出现了inputPython 解释器中的 Unicode 字符为简单起见我在示例中使用了变音符号但我第一次遇到波斯语字符每当我使用 Python 时CHCP 65001 https ss64 co
OnIdle 事件中的异常不会冒泡

在我的主窗体上我订阅了两个事件 Application ThreadException 和 Application Idle 理论上任何未捕获的异常都应该冒泡到主窗体但是如果异常发生在 OnIdle 事件中则此方法不起作用系统就
Altair 中具有自定义置信区间的折线图

假设我有下面的数据框我检查了文档 https altair viz github io gallery line with ci html但它仅基于单个列可重现的代码 x np random normal 100 5 100 data
Visual Studio 中的 HTML5 Javascript API Intellisense 支持

我开始使用 HTML5 CSS3 和新的 JavaScript API 我在 VS 2010 中注意到它不支持新的 JavaScript API 我想知道我是否可以对此做些什么所以在 Vs2010 中如果我输入 var canvas do
SQL DROP TABLE 外键约束

如果我想像这样删除数据库中的所有表它会处理外键约束吗如果没有我该如何处理 GO IF OBJECT ID dbo Course U IS NOT NULL DROP TABLE dbo Course GO IF OBJECT ID d
core.async不是违背Clojure原则吗？

我看到许多 Clo jure 程序员对新的 core async 库充满热情尽管它看起来很有趣但我很难看出它如何符合 Clojure 原则所以我有以下问题它在任何地方都使用可变状态正如函数名称通过感叹号所暗示的那样例如 alt
更新 Doctrine 后 Symfony 中的“ObjectManager 和 EntityManagerInterface 之间的兼容性”是什么？

在我的 Symfony 项目中尝试更新 composer update 后出现错误我寻找解决方案发现有必要修改实体和构造函数中的使用和类型提示我已经完成了然后我重新启动更新但出现了不同的错误并且更新未完全完成结果我的网站已
Heroku上传-预编译资产失败

我需要帮助当尝试将我的应用程序上传到heroku时我收到此错误有人知道为什么吗有几个是错的谢谢 Using rake 10 1 0 Using tlsmail 0 0 1 Using uglifier 2 1 2 Your bun
SVN存储库内容

我已经设置了 VisualSvn Server 创建了一个存储库并使用 AnkhSVN 向其中添加了 Visual Studio 解决方案存储库的 url 类似于https msi pc svn MyProj 由于我的无能一个问题此
Objective-C / Cocoa Touch 中的 HTML 字符解码

首先我发现了这个 https stackoverflow com questions 659602 objective c html escape unescapeObjective C HTML 转义 unescape https st
使用 Beautiful Soup - Python 查找 HTML 中 1 级内的所有文本

我需要用美丽的汤来完成以下任务 HTML 示例 div Text1 div Text3 div div 我需要对此进行搜索以便在列表的单独实例中返回给我 Text1 Text2 Text3 我尝试执行 findAll div 但它多次重复

使用 Beautiful Soup - Python 查找 HTML 中 1 级内的所有文本

使用 Beautiful Soup - Python 查找 HTML 中 1 级内的所有文本 的相关文章

随机推荐

热门标签

使用 Beautiful Soup - Python 查找 HTML 中 1 级内的所有文本的相关文章