使用 BeautifulSoup 访问下一个同级
元素

2023-11-26

我对使用 Python/BeautifulSoup 进行网络解析完全陌生。我有一个 HTML，其（部分）代码如下：

<div id="pages">
    <ul>
        <li class="active"><a href="example.com">Example</a></li>
        <li><a href="example.com">Example</a></li>
        <li><a href="example1.com">Example 1</a></li>
        <li><a href="example2.com">Example 2</a></li>
    </ul>
</div>

我必须去参观每个链接（基本上每个<li>元素），直到没有更多的元素为止<li>存在标签。每次点击链接时，都会显示相应的<li>元素的类别为“活动”。我的代码是：

from bs4 import BeautifulSoup
import urllib2
import re

landingPage = urllib2.urlopen('somepage.com').read()
soup = BeautifulSoup(landingPage)

pageList = soup.find("div", {"id": "pages"})

page = pageList.find("li", {"class": "active"})

这段代码给了我第一个<li>列表中的项目。我的逻辑是我不断检查是否next_sibling不是无。如果不是 None，我将创建一个 HTTP 请求href的属性<a>那个兄弟姐妹中的标签<li>。这将使我进入下一页，依此类推，直到没有更多的页面。

但我不知道如何获得next_sibling of the page上面给出的变量。是吗page.next_sibling.get("href")或类似的东西？我查看了文档，但不知何故找不到它。有人可以帮忙吗？

Use find_next_sibling()并明确您想要查找哪个同级元素：

next_li_element = page.find_next_sibling("li")

next_li_element会成为None if the page对应于最后一个活动的li:

if next_li_element is None:
    # no more pages to go

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 BeautifulSoup 访问下一个同级
元素的相关文章

SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
删除 IE9 边缘周围的 2px 灰色边框

我正在尝试对这个网站进行编码尝试关键字并且我正在尝试找出如何删除这个阴影2px灰色边框延伸到 IE9 窗口的内部至少顶部左侧和底部我的边距设置为零因此所有页面元素都到达页面的最边缘但使用 IE9 它们会停在这个灰色边框处我没
如何通过单击链接来更改 div 的内容？

这是我的网页的修改后的 jsfiddle 它还有很多而且定位是正确的与此相反 http jsfiddle net ry0tec3p 1 http jsfiddle net ry0tec3p 1 a href class btn1 st
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
具有 100% 高度行和 Internet Explorer 9 的表格

我有以下示例 div style height 150px background color AAAAFF div
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代

随机推荐

HTML - 如何将段落分成同样宽的行？

这是关于基本的 HTML CSS 页面渲染当一个段落太长而无法容纳在一行中时它会尽可能多地占据空间然后换行如此反复我希望我的网页能够进行换行以便生成的行尽可能相等所以不要得到包裹包裹包裹包裹包裹包裹包裹包裹包裹包裹包裹包
Windows 批处理文件不等待命令完成

我有一个批处理文件该文件一启动以管理员身份运行就存在并且不执行其中的命令但如果我在命令行指定它它会正常运行并执行所有命令这是其中的内容 start wait msiexec x SetupServices msi qn l S
如何通过 Azure 资源管理器设置 Azure 应用服务在 .Net Core 上运行

我使用以下 ARM 模板片段设置了应用服务 name variables webBackEnd type Microsoft Web sites location parameters location apiVersion 2015 08
获取所有相关的 Django 模型对象

如何获取具有指向对象的外键的所有模型对象的列表类似于 DELETE CASCADE 之前 Django 管理中的删除确认页面我试图想出一种合并数据库中重复对象的通用方法基本上我希望所有具有外键指向对象 B 的对象都更新为指向对象 A
有没有办法指示 argparse (Python 2.7) 从 sys.argv 中删除找到的参数？

我正处于开发过程中这个项目正在变成一个相当重要的 Python 2 7 项目现在我已经拥有了我的全部unittest类集中在自己的模块中 tests py 大约有3300行这是疯狂的大无法导航到处都是不好的做法等等所以我当前的
在 MVC 5 中正确获取 DataProtectionProvider 以进行依赖项注入

当尝试创建一个DataProtectionProvider手动我偶然发现了 Microsoft 文档DpapiDataProtectionProvider其中说用于提供源自于的数据保护服务数据保护 API 这是您数据保护的最佳选择应用
TranslateAnimated ImageView 动画后不可点击 [Android]

我有2个ImageView我从屏幕顶部翻译到底部这些视图是从 xml 中获取的动画是从 java 代码中添加的动画效果很完美但是onClickListener我在java代码中添加似乎不起作用我用了fillAfter动画的属性使
为什么“while(!feof(file))”总是错误？

使用有什么问题feof 控制读循环例如 include
如何在 QTableWidget 中禁用选择突出显示？

我有一个QTableWidget与残疾人setSelectionMode QTableWidget NoSelection 和QTableWidgetItems 我填写没有Qt ItemIsEditable flag 尽管如此被单击的单元
获取SDL 2应用程序的窗口句柄

我想获取 SDL2 窗口的句柄以便将其与 WinApi 一起使用我使用以下代码检索该句柄 All the SDL initalisation SDL Window window SDL CreateWindow My Window SD
如何在鼠标离开元素后继续 :hover 上的 CSS 动画？

有动画示例 b ball bounce transform origin top webkit keyframes ball animation 20 transform rotate 9deg 40 transform rotate 6d
DataGridView-当我按 Enter 键时，它会转到下一个单元格

我有一个包含 5 列的 datagridview 当我按输入时它会转到下一个单元格当它到达行的末尾时当我按输入时它会添加一个新行但我的问题是当我移到上一个单元格时我按 Enter 键后的行会跳过行并且不会转到下一个单元格有什
在 PHP 中验证信用卡的最佳方法是什么？

给定一个信用卡号码并且没有其他信息 PHP 中确定它是否是有效号码的最佳方法是什么现在我需要一些可以与美国运通卡 Discover 万事达卡和维萨卡一起使用的东西但如果它也可以与其他类型一起使用那可能会有所帮助卡号验证分为三个部分
Rails 4如何捕获ajax：成功事件

我使用的是 Rails 4 0 我正在发送这样的事件注意 remote gt true 我的控制器看起来像这样 def rate video Video find by hashed id params id action params
无法从网页中抓取产品标题

我正在尝试抓取此产品中可用的产品标题webpage使用请求模块但脚本总是抛出AttributeError即使产品标题位于页面源代码中 ctrl U 我尝试过 throws AttributeError import requests fr
从 Windows 10 上的 Win32 GUI 应用程序输出到控制台

我尝试将此代码输出到控制台 include
无法获取 org.gradle.api.project 类型的项目“:shared_preferences”的未知属性“android”

我试图在我的应用程序中使用共享首选项在使用它之前只需添加依赖项就会出现此错误有人有什么想法吗提前致谢我在使用 aapt2 proto 时遇到了这个问题并通过以下方式修复它 in 项目文件夹 gradle wrapper grad
Gradle 插件：约定与扩展

我正在编写一个 Gradle 插件并且通过阅读用户指南和 Gradle 项目内插件的源代码来学习 Gradle 在源代码中我发现了两种向项目添加属性的方法习俗由JavaBasePlugin并由JavaPlugin 扩大由Annou
极其滞后的 RecyclerView 性能

我有一个RecyclerView内部的实现ViewPager 而且它的性能非常糟糕这是相关表演的视频我有两种视图类型并且正在使用 ViewHolder 模式所以这不是通货膨胀或查找导致问题的视图这是适配器这是cardview x
使用 BeautifulSoup 访问下一个同级
元素

我对使用 Python BeautifulSoup 进行网络解析完全陌生我有一个 HTML 其部分代码如下 div ul li class active a href example com Example a li li a hre

使用 BeautifulSoup 访问下一个同级 元素

使用 BeautifulSoup 访问下一个同级 元素 的相关文章

随机推荐

热门标签

使用 BeautifulSoup 访问下一个同级
元素

使用 BeautifulSoup 访问下一个同级
元素的相关文章