使用 Beautiful Soup - Python 查找 HTML 中 1 级内的所有文本

2024-05-02

我需要用美丽的汤来完成以下任务

HTML 示例

<div id = "div1">
 Text1
 <div id="div2>
   Text2
   <div id="div3">
    Text3
   </div>
 </div>
</div>

我需要对此进行搜索,以便在列表的单独实例中返回给我

Text1
Text2
Text3

我尝试执行 findAll('div'),但它多次重复相同的文本,即它会返回

Text1 Text2 Text3
Text2 Text3
Text3

好吧,你的问题是.text还包括来自所有子节点的文本。您必须手动获取那些文本节点即时节点的子节点。此外,给定的文本节点内可能有多个文本节点,例如:

<div>
    Hello
        <div>
            foobar
        </div>
    world!
</div>

您希望如何将它们连接起来?这是一个用空格连接它们的函数:

def extract_text(node):
    return ' '.join(t.strip() for t in node(text=True, recursive=False))

以我的例子:

In [27]: t = """
<div>
    Hello
        <div>
            foobar
        </div>
    world!
</div>"""

In [28]: soup = BeautifulSoup(t)

In [29]: map(extract_text, soup('div'))
Out[29]: [u'Hello world!', u'foobar']

还有你的例子:

In [32]: t = """
<div id = "div1">
 Text1
 <div id="div2">
   Text2
   <div id="div3">
    Text3
   </div>
 </div>
</div>"""

In [33]: soup = BeautifulSoup(t)

In [34]: map(extract_text, soup('div'))
Out[34]: [u'Text1 ', u'Text2 ', u'Text3']
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Beautiful Soup - Python 查找 HTML 中 1 级内的所有文本 的相关文章

随机推荐

  • CoreData 多对多添加错误

    不确定我在这里做错了什么 School has a to many to Student and Student has its inverse 一点测试代码如下 class Student interface School NSManag
  • 具有自定义背景的 android textInputEditText 无法正常工作

    我在 textInputLayout 中使用 textInputEditText 我必须为我的 editText 设置背景才能为我的 editText 实现边框视图 但是当我在 textInputLayout 上调用 setError 时
  • 如何在 Android Studio 中为目标添加系统映像

    我有一个选项呈灰色 我必须完成该选项才能推进项目 它说 No system images installed for this target 这个答案适用于 Eclipse 但我不确定是否有 Android Studio 的等效项 无法创建
  • 在 Java 8 中,如何使用 lambda 将 Map 转换为另一个 Map

    我刚刚开始研究 Java 8 并尝试 lambda 我想我应该尝试重写我最近写的一个非常简单的东西 我需要将字符串到列的映射转换为另一个字符串到列的映射 其中新映射中的列是第一个映射中的列的防御副本 列有一个复制构造函数 到目前为止我最接近
  • 如何查明我的 Mac 上安装了哪些 Python 库?

    我刚刚开始使用 Python 发现我可以导入各种库 如何找出我的 Mac 上存在哪些可以导入的库 我如何找出它们包含哪些功能 我似乎记得使用一些网络服务器类型的东西来浏览本地帮助文件 但我可能已经想象到了 从 Python REPL 命令行
  • ProviderManifestToken 2008 或 2012

    应用程序 NET 4 5 C 使用 EF6 和数据库优先方法 支持 SQL Server 2008R2 2012 和 2014 这个问题是关于ProviderManifestToken自动生成的 edmx 文件的属性 根据使用哪个版本的数据
  • org.hibernate.AssertionFailure:例如无法执行取消删除

    当我尝试在一些删除操作后进行读取时 我收到此休眠断言错误 我找不到任何有关此 无法执行取消删除 错误的信息 除了源代码 https github com hibernate hibernate orm blob master hiberna
  • git:显示所有已修改的文件 - 已暂存和未暂存

    我需要一个命令给我所有修改过的文件 这包括暂存 即新添加的文件 和非暂存更改 在普通列表我可以在脚本中使用它 虽然这个问题可能听起来很熟悉 但我只找到接近我想要做的命令 git ls files m 列出 非分阶段 修改但忽略了上演的和新的
  • 在 Ionic/Cordova 中接收 URL

    我正在尝试设置一种从另一个应用程序接收网址的方法 就像 您在浏览器中 单击共享 然后将链接发送到另一个应用程序 我的应用程序 我发现这个科尔多瓦插件 https github com Initsogar cordova webintent
  • chcp 65001 代码页导致程序终止且没有任何错误

    Problem 当我想要的时候问题就出现了inputPython 解释器中的 Unicode 字符 为简单起见 我在示例中使用了变音符号 但我第一次遇到波斯语字符 每当我使用 Python 时CHCP 65001 https ss64 co
  • OnIdle 事件中的异常不会冒泡

    在我的主窗体上 我订阅了两个事件 Application ThreadException 和 Application Idle 理论上 任何未捕获的异常都应该冒泡到主窗体 但是 如果异常发生在 OnIdle 事件中 则此方法不起作用 系统就
  • Altair 中具有自定义置信区间的折线图

    假设我有下面的数据框 我检查了文档 https altair viz github io gallery line with ci html但它仅基于单个列 可重现的代码 x np random normal 100 5 100 data
  • Visual Studio 中的 HTML5 Javascript API Intellisense 支持

    我开始使用 HTML5 CSS3 和新的 JavaScript API 我在 VS 2010 中注意到它不支持新的 JavaScript API 我想知道我是否可以对此做些什么 所以在 Vs2010 中如果我输入 var canvas do
  • SQL DROP TABLE 外键约束

    如果我想像这样删除数据库中的所有表 它会处理外键约束吗 如果没有 我该如何处理 GO IF OBJECT ID dbo Course U IS NOT NULL DROP TABLE dbo Course GO IF OBJECT ID d
  • core.async不是违背Clo​​jure原则吗?

    我看到许多 Clo jure 程序员对新的 core async 库充满热情 尽管它看起来很有趣 但我很难看出它如何符合 Clojure 原则 所以我有以下问题 它在任何地方都使用可变状态 正如函数名称通过感叹号所暗示的那样 例如 alt
  • 更新 Doctrine 后 Symfony 中的“ObjectManager 和 EntityManagerInterface 之间的兼容性”是什么?

    在我的 Symfony 项目中尝试更新 composer update 后出现错误 我寻找解决方案 发现有必要修改实体和构造函数中的使用和类型提示 我已经完成了 然后 我重新启动更新 但出现了不同的错误 并且更新未完全完成 结果 我的网站已
  • Heroku上传-预编译资产失败

    我需要帮助 当尝试将我的应用程序上传到heroku时 我收到此错误 有人知道为什么吗 有几个是错的 谢谢 Using rake 10 1 0 Using tlsmail 0 0 1 Using uglifier 2 1 2 Your bun
  • SVN存储库内容

    我已经设置了 VisualSvn Server 创建了一个存储库 并使用 AnkhSVN 向其中添加了 Visual Studio 解决方案 存储库的 url 类似于https msi pc svn MyProj 由于我的无能 一个问题 此
  • Objective-C / Cocoa Touch 中的 HTML 字符解码

    首先 我发现了这个 https stackoverflow com questions 659602 objective c html escape unescapeObjective C HTML 转义 unescape https st
  • 使用 Beautiful Soup - Python 查找 HTML 中 1 级内的所有文本

    我需要用美丽的汤来完成以下任务 HTML 示例 div Text1 div Text3 div div 我需要对此进行搜索 以便在列表的单独实例中返回给我 Text1 Text2 Text3 我尝试执行 findAll div 但它多次重复