如何在 Beautifulsoup 的 find_all() 函数中过滤没有属性的标签？

2024-03-23

下面是我正在使用的一个简单的 html 源代码

<html>
<head>
<title>Welcome to the comments assignment from www.py4e.com</title>
</head>
<body>
<h1>This file contains the actual data for your assignment - good luck!</h1>

<table border="2">
<tr>
<td>Name</td><td>Comments</td>
</tr>
<tr><td>Melodie</td><td><span class="comments">100</span></td></tr>
<tr><td>Machaela</td><td><span class="comments">100</span></td></tr>
<tr><td>Rhoan</td><td><span class="comments">99</span></td></tr>

下面是我的代码尝试获取<td>Melodie</td> line

html='html text file aboved'

soup=BeautifulSoup(html,'html.parser')

    for tag in soup.find_all('td'):
        print(tag) 
        print('----') #Result:
#===============================================================================
# <td>Name</td>
# ----
# <td>Comments</td>
# ----
# <td>Melodie</td>
# ----
# <td><span class="comments">100</span></td>
# ----
# <td>Machaela</td>
# ----
# <td><span class="comments">100</span></td>
# ----
# <td>Rhoan</td>
# ----
#.........
#===============================================================================

现在我想得到<td>name<td>仅行，而不是带有“span”和“class”的行。我尝试了 2 个过滤器soup.find_all('td' and not 'span') and soup.find_all('td', attrs={'class':None})但这些都不起作用。我知道还有其他方法，但我想在 soup.find_all() 中使用过滤器。我的预期输出（实际上我的最终目标是获取两个之间的人名<td>):

# <td>Name</td>
# ----
# <td>Comments</td>
# ----
# <td>Melodie</td>
# ----
# <td>Machaela</td>
# ----
# <td>Rhoan</td>
# ----

您可以通过两个单独的选择器调用获得所需的输出：

from bs4 import BeautifulSoup

html = """
<body>
<table border="2">
<tr>
<td>Name</td><td>Comments</td>
</tr>
<tr><td>Melodie</td><td><span class="comments">100</span></td></tr>
<tr><td>Machaela</td><td><span class="comments">100</span></td></tr>
<tr><td>Rhoan</td><td><span class="comments">99</span></td></tr>
"""
soup = BeautifulSoup(html, "lxml")

for elem in soup.select("td"):
    if not elem.select(".comments"):
        print(elem)

Output:

<td>Name</td>
<td>Comments</td>
<td>Melodie</td>
<td>Machaela</td>
<td>Rhoan</td>

顺便说一句，与 html.parser 相比，我更喜欢 lxml。它对格式错误的 HTML 更快、更稳健。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

beautifulsoup

findAll

如何在 Beautifulsoup 的 find_all() 函数中过滤没有属性的标签？的相关文章

SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
响应式图像 - srcset 和尺寸属性 - 如何正确使用两者：基于设备像素比和基于视口的选择一起？

到目前为止我经常读到这个问题并且它也发生在我自己的项目中这里介绍一下我到目前为止所发现的关于 srcset 和 size 属性的内容关于如何使用有两种不同的可能性srcset 属性来源 w3c http w3c github io
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
php - 解析html页面

div divbox div p para1 p p para2 p p para3 p table class table tr td td tr table p para4 p p para5 p 有人可以告诉我如何解析这个 html
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
检查 jQuery 1.7 中是否存在基于文本的选择选项

所以我有以下 HTML 片段
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
刷新页面时保存用户的选择

我目前有一个页面显示不同团队的数据我有一些数据用户可以单击使其处于打开或关闭状态并为每个数据显示不同的图标它基本上就像一个清单只是没有物理复选框我想记住哪些复选框已被选中即使在用户刷新页面或关闭浏览器并稍后返回之后
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
Python 类继承 - 诡异的动作

我观察到类继承有一个奇怪的效果对于我正在处理的项目我正在创建一个类来充当另一个模块的类的包装器我正在使用第 3 方 aeidon 模块用于操作字幕文件但问题可能不太具体以下是您通常如何使用该模块 project aeidon P
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

Jupyter 小部件未出现在笔记本中

我正在运行 jupyter 笔记本但 jupyter 小部件没有出现相反我收到以下消息 Failed to display Jupyter Widget of type Button If you re reading this me
Java - 使用流转置列表的列表

为了改进目的我尝试专门使用流来转置列表列表我的意思是我有一个双精度列表列表其中包含例如 1 2 3 4 5 6 7 8 我想获得一个包含双打列表的列表 1 5 2 6 3 7 4 8 以下 Stack Overflow 问题提供了一
.designer 文件未与 Visual Studio 中的 .cs 文件关联？

EDIT 似乎有一种视觉效果视觉工作室中的错误当我将网站文件夹作为网站打开并查看 Views ascx designer cs 时它没有显示它是关联的但是如果我打开同一网站的解决方案文件那么这些文件就会关联并且一切正常需要明确
IIS VS 2008 / Web.config - 日期格式错误

谁能帮忙我最近移动了服务器它的 IIS7 而不是我们之前的 IIS6 但其他一切都是一样的我已将区域设置为英国所有日期格式加上系统本地我的意思是一切但是当网页 asp net 在 IIS7 上运行时它认为日期是另一种格式这真
计算器：仅当鼠标悬停在测试 JFrame 类中的按钮上时才会显示按钮

我很着急所以我想知道重复的事情我仍在努力学习 Java 和术语直到本学期结束我用了一个模板我正在使用背景图像面板这使一切变得复杂基本上这些按钮仅当我将鼠标悬停在它们上方时才会显示显然它与 JPanel 有关我排除了您
QISKIT 错误 - numpy.ndarray 大小已更改，可能表示二进制不兼容。预期来自 C 标头的值为 88，而来自 PyObject 的值为 80

我跑了这个 from qiskit import QuantumCircuit execute Aer from qiskit visualization import plot histogram 并得到以下错误 ValueError T
在iPhone上安装使用android studio开发的flutter应用

我最近开始在 Windows 10 上使用带有 Android Studio 的插件开发一个 Flutter 应用程序我可以通过连接具有 USB 调试模式的手机在 Android 手机上运行应用程序在我的 iPhone 上运行 flut
AndroidManifest.xml 在 android studio 中如何验证？

android studio 如何验证 AndroidManifest xml 和任何活动 xml 我读过了this https stackoverflow com questions 10242929 validating android
Vim：Mac 与 Linux ^M 问题

我使用 Vim 和 GIT 在 Linux Ubuntu 机器上开发我的项目以前我用的是Windows 这意味着行尾是DOS格式现在在迁移到 Linux 后我总是在行尾看到 M 令人困惑烦人的字符这里有些人如何将 vim 打开
如何从 gulp 调用执行 PowerShell 脚本？

我正在使用 gulp 来构建和部署我们的应用程序 var msbuild require gulp msbuild gulp task build clean function return gulp src sln pipe msbuil
iOS 15 标签栏滚动到底部后透明

如何修复iOS 15标签栏滚动到底部后透明的问题在 iOS 15 中 UIKit 扩展了scrollEdgeAppearance 的使用默认情况下会生成透明背景由于我在 iOS 15 之前在应用程序中全局更改了标签栏颜色因此我已将以
为什么在 Dart 中“var”而不是数据类型被认为是更好的实践？ [复制]

这个问题在这里已经有答案了我正在学习 Dart 教程中提到当你初始化变量时使用关键字 var 而不是 int 这样的数据类型 Dart 会根据初始值自动推断出它是 int 还是 String 但是如果我们直接告诉 dart 它要指向一
PHP if 条件与布尔值[重复]

这个问题在这里已经有答案了为什么会这样happen http sandbox onlinephpfunctions com code d5fff6ee86bc7c62d7624a39a1070cff770ad4aa 请解释一下我不是在寻
查找嵌套开始和结束标签的最佳方法

我正在使用 ROR 制作一个基本的讨论板当用户发布对消息的响应时输入文本区域将使用标签预先填充在引号中的消息 QUOTE 因此格式为 QUOTE 此处引用的消息 QUOTE 目前我有一个简单的解决方案使用 HTML 替换 QUOT
C# - 如何返回基于字符串的类型

例如我有一个名为 Clothing 的类它继承自 Product 的抽象类 public class Clothing Product public bool IsInSeason get set public string Mater
使用 MNIST 实现逻辑回归 - 不收敛？

我希望有一个人可以帮助我我从头开始实现了逻辑回归所以没有库除了 Python 中的 numpy I used MNIST 数据集 http yann lecun com exdb mnist 作为输入并决定尝试因为我正在进行二进制
Guard Rspec :cli 选项已弃用，更改为 :cmd 选项

Working Guardfile在我的 Rails 应用程序中 guard rspec all after pass false cli drb do 不工作Guardfile guard rspec all after pass fal
使用 VueJS 动态编译和安装元素

问题我为 VueJS 创建了一个围绕 jQuery DataTables 的轻量级包装器如下所示
Xcode 不断暂停我的音乐

首先我知道这是一个编程论坛但我的问题涉及 Xcode 并且在编码时问题发生在我身上当我使用Xcode 当它在调试时停在断点处时播放的音乐的声音在我的 Mac 音乐播放器中消失了我知道这很尴尬但它确实发生了有没有人有解决方案
如何在 Beautifulsoup 的 find_all() 函数中过滤没有属性的标签？

下面是我正在使用的一个简单的 html 源代码 h1 This file contains the actual data for your assignment good luck h1 table border 2 tr td Name

如何在 Beautifulsoup 的 find_all() 函数中过滤没有属性的标签？

如何在 Beautifulsoup 的 find_all() 函数中过滤没有属性的标签？ 的相关文章

随机推荐

热门标签

如何在 Beautifulsoup 的 find_all() 函数中过滤没有属性的标签？的相关文章