python爬虫beautifulsoup详细教程

2023-05-16

BeautifulSoup4是爬虫必学的技能。BeautifulSoup最主要的功能是从网页抓取数据，Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，但lxml 解析器更加强大，速度更快，推荐使用lxml 解析器。

BeautifulSoup4和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐使用lxml 解析器。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

二、BeautifulSoup4主要解析器，以及优缺点：
在这里插入图片描述

三、BeautifulSoup4简单使用
假设有这样一个Html，具体内容如下：

百度一下，你就知道

新闻 hao123 地图视频贴吧更多产品

创建beautifulsoup4对象：

from bs4 import BeautifulSoup
file = open(’./aa.html’, ‘rb’)
html = file.read()
bs = BeautifulSoup(html,“html.parser”) # 缩进格式
print(bs.prettify()) # 格式化html结构
print(bs.title) # 获取title标签的名称
print(bs.title.name) # 获取title的name
print(bs.title.string) # 获取head标签的所有内容
print(bs.head)
print(bs.div) # 获取第一个div标签中的所有内容
print(bs.div[“id”]) # 获取第一个div标签的id的值
print(bs.a)
print(bs.find_all(“a”)) # 获取所有的a标签
print(bs.find(id=“u1”)) # 获取id=“u1”
for item in bs.find_all(“a”):
print(item.get(“href”)) # 获取所有的a标签，并遍历打印a标签中的href的值
for item in bs.find_all(“a”):
print(item.get_text())

四、BeautifulSoup4四大对象种类
BeautifulSoup4将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment
4.1、Tag

Tag通俗点讲就是HTML中的一个个标签，例如：

from bs4 import BeautifulSoup
file = open(’./aa.html’, ‘rb’)
html = file.read()
bs = BeautifulSoup(html,“html.parser”)
#获取title标签的所有内容
print(bs.title)
#获取head标签的所有内容
print(bs.head)
#获取第一个a标签的所有内容
print(bs.a)
#类型
print(type(bs.a))
我们可以利用 soup 加标签名轻松地获取这些标签的内容，这些对象的类型是bs4.element.Tag。但是注意，它查找的是在所有内容中的第一个符合要求的标签。

对于 Tag，它有两个重要的属性，是 name 和 attrs：

from bs4 import BeautifulSoup
file = open(’./aa.html’, ‘rb’)
html = file.read()
bs = BeautifulSoup(html,“html.parser”)
#[document] #bs 对象本身比较特殊，它的 name 即为 [document]
print(bs.name)
#head #对于其他内部标签，输出的值便为标签本身的名称
print(bs.head.name)
#在这里，我们把 a 标签的所有属性打印输出了出来，得到的类型是一个字典。
print(bs.a.attrs)
#还可以利用get方法，传入属性的名称，二者是等价的
print(bs.a[‘class’]) # 等价 bs.a.get(‘class’)
#可以对这些属性和内容等等进行修改
bs.a[‘class’] = “newClass”
print(bs.a)
#还可以对这个属性进行删除
del bs.a[‘class’]
print(bs.a)

4.2、NavigableString

既然我们已经得到了标签的内容，那么问题来了，我们要想获取标签内部的文字怎么办呢？很简单，用 .string 即可，例如：

from bs4 import BeautifulSoup
file = open(’./aa.html’, ‘rb’)
html = file.read()
bs = BeautifulSoup(html,“html.parser”)

print(bs.title.string)
print(type(bs.title.string))

4.3、BeautifulSoup

BeautifulSoup对象表示的是一个文档的内容。大部分时候，可以把它当作 Tag 对象，是一个特殊的 Tag，我们可以分别获取它的类型，名称，以及属性，例如：

from bs4 import BeautifulSoup
file = open(’./aa.html’, ‘rb’)
html = file.read()

bs = BeautifulSoup(html,“html.parser”)
print(type(bs.name))
print(bs.name)
print(bs.attrs)

4.4、Comment

Comment 对象是一个特殊类型的 NavigableString 对象，其输出的内容不包括注释符号。

from bs4 import BeautifulSoup
file = open(’./aa.html’, ‘rb’)
html = file.read()
bs = BeautifulSoup(html,“html.parser”)
print(bs.a)
#此时不能出现空格和换行符，a标签如下：

print(bs.a.string) # 新闻
print(type(bs.a.string)) # <class ‘bs4.element.Comment’>

五、遍历文档树
5.1、.contents：获取Tag的所有子节点，返回一个list

#tag的.content 属性可以将tag的子节点以列表的方式输出
print(bs.head.contents)
#用列表索引来获取它的某一个元素
print(bs.head.contents[1])

5.2、.children：获取Tag的所有子节点，返回一个生成器

for child in bs.body.children:
print(child)
5.3、.descendants：获取Tag的所有子孙节点

5.4、.strings：如果Tag包含多个字符串，即在子孙节点中有内容，可以用此获取，而后进行遍历

5.5、.stripped_strings：与strings用法一致，只不过可以去除掉那些多余的空白内容

5.6、.parent：获取Tag的父节点

5.7、.parents：递归得到父辈元素的所有节点，返回一个生成器

5.8、.previous_sibling：获取当前Tag的上一个节点，属性通常是字符串或空白，真实结果是当前标签与上一个标签之间的顿号和换行符

5.9、.next_sibling：获取当前Tag的下一个节点，属性通常是字符串或空白，真是结果是当前标签与下一个标签之间的顿号与换行符

5.10、.previous_siblings：获取当前Tag的上面所有的兄弟节点，返回一个生成器

5.11、.next_siblings：获取当前Tag的下面所有的兄弟节点，返回一个生成器

5.12、.previous_element：获取解析过程中上一个被解析的对象(字符串或tag)，可能与previous_sibling相同，但通常是不一样的

5.13、.next_element：获取解析过程中下一个被解析的对象(字符串或tag)，可能与next_sibling相同，但通常是不一样的

5.14、.previous_elements：返回一个生成器，可以向前访问文档的解析内容

5.15、.next_elements：返回一个生成器，可以向后访问文档的解析内容

5.16、.has_attr：判断Tag是否包含属性

六、搜索文档树
6.1、find_all(name, attrs, recursive, text, **kwargs)

在上面的栗子中我们简单介绍了find_all的使用，接下来介绍一下find_all的更多用法-过滤器。这些过滤器贯穿整个搜索API，过滤器可以被用在tag的name中，节点的属性等。

（1）name参数：

字符串过滤：会查找与字符串完全匹配的内容

a_list = bs.find_all(“a”)
print(a_list)
正则表达式过滤：如果传入的是正则表达式，那么BeautifulSoup4会通过search()来匹配内容

from bs4 import BeautifulSoup
import re
file = open(’./aa.html’, ‘rb’)
html = file.read()
bs = BeautifulSoup(html,“html.parser”)
t_list = bs.find_all(re.compile(“a”))
for item in t_list:
print(item)
列表：如果传入一个列表，BeautifulSoup4将会与列表中的任一元素匹配到的节点返回

t_list = bs.find_all([“meta”,“link”])
for item in t_list:
print(item)
方法：传入一个方法，根据方法来匹配

from bs4 import BeautifulSoup
file = open(’./aa.html’, ‘rb’)
html = file.read()
bs = BeautifulSoup(html,“html.parser”)
def name_is_exists(tag):
return tag.has_attr(“name”)
t_list = bs.find_all(name_is_exists)
for item in t_list:
print(item)

（2）kwargs参数：

from bs4 import BeautifulSoup
import re
file = open(’./aa.html’, ‘rb’)
html = file.read()
bs = BeautifulSoup(html,“html.parser”)
#查询id=head的Tag
t_list = bs.find_all(id=“head”) print(t_list)
#查询href属性包含ss1.bdstatic.com的Tag
t_list = bs.find_all(href=re.compile(“http://news.baidu.com”))
print(t_list)
#查询所有包含class的Tag(注意：class在Python中属于关键字，所以加_以示区别)
t_list = bs.find_all(class_=True)
for item in t_list:
print(item)

（3）attrs参数：

并不是所有的属性都可以使用上面这种方式进行搜索，比如HTML的data-*属性：

t_list = bs.find_all(data-foo=“value”)
如果执行这段代码，将会报错。我们可以使用attrs参数，定义一个字典来搜索包含特殊属性的tag：

t_list = bs.find_all(attrs={“data-foo”:“value”})
for item in t_list:
print(item)
（4）text参数：

通过text参数可以搜索文档中的字符串内容，与name参数的可选值一样，text参数接受字符串，正则表达式，列表

from bs4 import BeautifulSoup
import re
file = open(’./aa.html’, ‘rb’)
html = file.read()
bs = BeautifulSoup(html, “html.parser”)
t_list = bs.find_all(attrs={“data-foo”: “value”})
for item in t_list:
print(item)
t_list = bs.find_all(text=“hao123”)
for item in t_list:
print(item)
t_list = bs.find_all(text=[“hao123”, “地图”, “贴吧”])
for item in t_list:
print(item)
t_list = bs.find_all(text=re.compile("\d"))
for item in t_list:
print(item)
当我们搜索text中的一些特殊属性时，同样也可以传入一个方法来达到我们的目的：

def length_is_two(text):
return text and len(text) == 2
t_list = bs.find_all(text=length_is_two)
for item in t_list:
print(item)
（5）limit参数：

可以传入一个limit参数来限制返回的数量，当搜索出的数据量为5，而设置了limit=2时，此时只会返回前2个数据

from bs4 import BeautifulSoup
import re
file = open(’./aa.html’, ‘rb’)
html = file.read()
bs = BeautifulSoup(html, “html.parser”)
t_list = bs.find_all(“a”,limit=2)
for item in t_list:
print(item)
find_all除了上面一些常规的写法，还可以对其进行一些简写：

#两者是相等的
#t_list = bs.find_all(“a”) => t_list = bs(“a”)
t_list = bs(“a”) # 两者是相等的
#t_list = bs.a.find_all(text=“新闻”) => t_list = bs.a(text=“新闻”)
t_list = bs.a(text=“新闻”)

6.2、find()

find()将返回符合条件的第一个Tag，有时我们只需要或一个Tag时，我们就可以用到find()方法了。当然了，也可以使用find_all()方法，传入一个limit=1，然后再取出第一个值也是可以的，不过未免繁琐。

from bs4 import BeautifulSoup
import re
file = open(’./aa.html’, ‘rb’)
html = file.read()
bs = BeautifulSoup(html, “html.parser”)
#返回只有一个结果的列表
t_list = bs.find_all(“title”,limit=1)
print(t_list)
#返回唯一值
t = bs.find(“title”)
print(t)
#如果没有找到，则返回None
t = bs.find(“abc”) print(t)
从结果可以看出find_all，尽管传入了limit=1，但是返回值仍然为一个列表，当我们只需要取一个值时，远不如find方法方便。但

是如果未搜索到值时，将返回一个None

在上面介绍BeautifulSoup4的时候，我们知道可以通过bs.div来获取第一个div标签，如果我们需要获取第一个div下的第一个div，

我们可以这样：

t = bs.div.div
#等价于
t = bs.find(“div”).find(“div”)

七、CSS选择器
BeautifulSoup支持发部分的CSS选择器，在Tag获取BeautifulSoup对象的.select()方法中传入字符串参数，即可使用CSS选择器的语法找到Tag:

7.1、通过标签名查找

print(bs.select(‘title’))
print(bs.select(‘a’))
7.2、通过类名查找

print(bs.select(’.mnav’))
7.3、通过id查找

print(bs.select(’#u1’))
7.4、组合查找

print(bs.select(‘div .bri’))
7.5、属性查找

print(bs.select(‘a[class=“bri”]’))
print(bs.select(‘a[href=“http://tieba.baidu.com”]’))
7.6、直接子标签查找

t_list = bs.select(“head > title”)
print(t_list)
7.7、兄弟节点标签查找

t_list = bs.select(".mnav ~ .bri")
print(t_list)
7.8、获取内容

t_list = bs.select(“title”)
print(bs.select(‘title’)[0].get_text())

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫beautifulsoup详细教程的相关文章

“扩展”numpy ndarray 的好方法？

有没有扩展 numpy ndarray 的好方法假设我有一个像这样的 ndarray 1 2 3 4 我希望每行通过填充零来包含更多元素 1 2 0 0 0 3 4 0 0 0 我知道一定有一些蛮力的方法可以做到这一点比如构造一个带有
使用天蓝色错误“找不到资源”进行情绪分析

我创建了一个 python 程序它接受字符串作为输入并对其执行情感分析我已经按照文档中所述创建了环境变量并重新启动了 cmd 和 Visual Studio 但仍然出现以下错误遇到异常操作返回无效状态代码未找到资源 python
Redis - 错误：值不是有效的浮点数

我在 Redis 中有一个排序集我试图通过在Python代码中使用zincrby来更新特定元素的计数器值例如 conn zincrby usersSet float 1 user1 但它显示错误为错误值不是有效的浮点数我在 cli
Flask/Apache 提交按钮用于文件上传

我有一个在 apache 后面运行的 Flask 应用程序在我的 index html 页面上有一个文件上传按钮和一个提交按钮如下所示
尽管 ioff() 和 matplotlib.use('Agg')，Pyplot“无法连接到 X 服务器 localhost:10.0”

我有一段代码它被不同的函数调用为我执行一些计算然后将输出绘制到文件中鉴于整个脚本可能需要一段时间才能运行更大的数据集并且由于我可能想在给定时间分析多个数据集所以我开始它screen然后断开连接并关闭我的腻子会话并在第二天再检查
创建一个行为类似于任何变量但具有更改/读取回调的类

我想创建一个类其行为类似于 python 变量但在更改读取变量时调用一些回调函数换句话说我希望能够按如下方式使用该类 x myClass change callback read callback 将 x 定义为 myclas
python 类的属性不在 __init__ 中

我想知道为什么下面的代码有效 usr bin env python3 import sys class Car def init self pass if name main c Car c speed 3 c time 5 print c
计算 for 循环期间的运行总计 - Python

编辑下面是我根据收到的反馈答案编写的工作代码这个问题源于我之前使用 MIT 的开放课件学习 Python CS 时提出的问题在这里查看我之前的问题 https stackoverflow com questions 4990159
类型错误：只有长度为 1 的数组可以转换为 Python 标量

我是 openCV 的初学者正在尝试分析数独求解器的现有代码有这一段代码会引发错误 samples np float32 np loadtxt feature vector pixels data responses np float3
生产环境的 Flask-Login 与 Flask-Security

我正在构建一个功能供用户注册登录验证和授权自己特别是使用 Python Flask 作为后端我找到了一些解决方案例如flask login and flask security 据我了解 flask login实际上并没有进行任
如何在 sqlalchemy 中创建基于文字的查询？

我创建了一个函数来创建表达式 def test operator1 operation operator2 return literal column operator1 op operation operator2 现在当我用 test
Python：动态向对象添加字段

我想知道是否可以动态向对象添加字段例如我希望能够添加如下内容 user object user first name John user last name Smith 当我在 Python 命令行解释器中执行该命令时我得到 Attr
PyCharm 输出错误消息散布在控制台输出中。如何解决这个问题？

我正在运行 PyCharm 社区版 4 0 4 有谁知道为什么控制台输出后不显示错误消息 Thanks C Python27 python exe F Google Drive code python scripts leetcode lc
如何使用子进程打开新的浏览器选项卡？

我正在打开一个新的 IE 窗口 subprocess Popen r os environ PROGRAMFILES Internet Explorer IEXPLORE EXE Call URL 当 IE 关闭时这很好但即使打开它也会生
如何对嵌套函数进行单元测试？ [复制]

这个问题在这里已经有答案了您将如何对嵌套函数进行单元测试f1 在下面的例子中 def f def f1 return 1 return 2 或者需要测试的函数不应该嵌套吗有一个类似的问题这个链接 https stackoverflow
将多个 isinstance 检查转换为结构模式匹配

我想转换此现有代码以使用模式匹配 if isinstance x int pass elif isinstance x str x int x elif isinstance x float Decimal x round x else r
在 Django 中翻译文件时的 Git 命令

我在 Django 中有一个现有的应用程序我想在页面上添加翻译在页面上我有 trans Projects 在 po 文件中我添加了 templates staff site html 200 msgid Projects msgid P
Tensorboard——High-level节点的计算时间与其子节点计算时间的总和不同

继tutorial https www tensorflow org programmers guide graph viz在 TensorFlow 上我试图使用张量板来理解运行时统计数据我发现代表名称范围的高级节点的计算时间不等于其子
“ModuleNotFoundError：我的 Docker 容器中没有名为的模块”

我正在尝试在 Docker 容器中运行 python 脚本但我不知道为什么 python 找不到任何 python 模块我认为它与 PYTHONPATH 环境变量有关所以我尝试将其添加到 Dockerfile 中如下所示 ENV P
有效积累稀疏 scipy 矩阵的集合

我有一个 O N NxN 的集合scipy sparse csr matrix 每个稀疏矩阵都有 N 个元素集我想将所有这些矩阵加在一起以获得一个常规的 NxN numpy 数组 N 约为 1000 矩阵内非零元素的排列使得所得总和肯定不

随机推荐

Linux防火墙配置及放行端口

文章目录一 firewalld的基本使用 xff08 系统防火墙 xff09 二配置firewalld cmd三通过firewall cmd xff08 放行端口 xff09 一 firewalld的基本使用 xff08 系统防火墙
CreateThread()总结

HANDLE hThread 61 CreateThread NULL 0 runThread this CREATE SUSPENDED NULL 创建一个挂起的线程 ResumeThread hThread 恢复线程 SuspendTh
RabbitMQ消费消息坑：failed to convert serialized Message content

文章目录一问题描述二解决方案方案一 xff1a 共同使用一个对象方案二 xff1a 消息JSON序列化 xff08 推荐 xff09 2 1 生产者发送消息JSON序列化2 2 消费者接收消息JSON反序列化三测试推荐文章 xf
idea Services项目运行后启动类没有显示端口号

文章目录问题描述原因分析 xff1a 解决方案 xff1a 问题描述 Services 项目运行后启动类没有显示端口号原因分析 xff1a 旧版插件升级才会出现这种情况 xff0c 这个功能是近期升级新版本添加的 xff0c 以前安装后
[08S01] 驱动程序无法通过使用安全套接字层(SSL)加密与 SQL Server 建立安全连接。错误:“The server selected protocol version TLS10 is

文章目录项目场景问题描述解决方案方案一 xff1a 修改jdk xff08 推荐 xff09 方案二 xff1a 修改idea 测试连接项目场景 Idea使用DateSource插件连接SqlServer数据库报错问题描述 08S01
JDK1.8Stream根据条件过滤出两个List集合中不一样的数据

文章目录前言1 基础类2 核心代码2 1 单条件筛选2 2 多条件筛选前言需求 xff1a 对两个数据库 xff08 一个SqlServer xff0c 一个MySQL xff09 xff0c 同一张表做数据同步 xff0c 保证两边
Dockers更新镜像（保留原始数据）

文章目录一前言二使用步骤 1 拉取需要更新的镜像版本 2 获取当前镜像启动参数 3 停止当前镜像 4 启动新镜像 5 删除旧镜像三测试验证一前言日常工作中应用程序为了避免漏洞体验等等肯定是需要定期更新的使用Docke
FRP实现内网穿透

文章目录前言一 frp是什么 xff1f 二使用步骤1 安装frp2 有公网IP Centos2 1 frps配置2 2 防火墙配置 xff08 有坑 xff09 3 配置无公网IP Centos4 内网穿透测试前言使用旧笔记本电脑
Linux创建普通用户并设置目录权限

文章目录前言使用步骤 1 创建普通用户 2 创建docker用户组 3 测试 4 扩展前言实际工作中通常为什么不直接使用root账户而要使用普通账户呢因为root的权限太大了一旦用户特别是小白用户直接使用root账户的话那
Error response from daemon: unauthorized: unauthorized to access repository:xxx

问题描述 Jenkins构建项目异常 xff1a Unable to span class token function find span image span class token string 39 xxx latest 39 sp
宝塔Linux面板phpMyAdmin无法打开/打开404完美解决方案

文章目录问题描述解决方案1 宝塔放行端口2 放行安全组端口3 解决开启防火墙方案3 1 方案一 xff1a 放行防火墙端口3 2 方案二 xff1a 关闭防火墙问题描述宝塔面板安装phpMyAdmin后打不开 xff0c 无响应解决
Ubuntu18.04配置PX4编译环境

最近尝试使用Ubuntu18 04重新配置了一下PX4编译环境 http dev px4 io master en setup dev env linux ubuntu html 跟着官网走非常简单 1 运行ubuntu sim ros
Windows高精度时钟

封装几个代码 xff0c 方便以后查询和使用 Windows高精度时钟精度 xff1a lt 1us 微秒 1 1Function 1统计一段代码的CPU时间 LARGE INTEGER freq span class token pun
LAMP平台配置

Apache安装安装httpd 96 yum y install httpd 96 启动apache服务 xff1a service httpd start验证apache的端口是否开放 xff1a ss antpl grep 80建立a
ROS实战篇（二）如何创建自定义的msg文件以及自己编写launch文件？

一如何创建自定义的msg文件 xff1f msg文件介绍 xff1a 1 msg文件是用来描述ROS中自定义的消息类型的 xff0c 可以被不同语言调用 2 msg文件以 msg 结尾 xff0c 必须存放在软件包的msg文件夹下 3 m
十五、Linux驱动之USB鼠标驱动

1 如何编写USB鼠标驱动结合十四 Linux驱动之USB驱动分析中的分析 xff0c 我们开始写一个USB鼠标驱动 USB的驱动可以分为3类 xff1a SoC的USB控制器的驱动 xff0c 主机端USB设备的驱动 xff0c 设备上
kazam录制视频转码

Ubuntu安装kazam录制视频转码问题录制转码录制在ubuntu下录制视频发现录制mp4视频在windows中大部分无法打开播放只有potplayer可以 xff0c 主要是两边视频格式不支持 xff0c 为此需要进行转码转码
layui实现文件分片上传

html代码 lt DOCTYPE html gt lt html gt lt head gt lt meta charset 61 34 utf 8 34 gt lt title gt layui lt title gt lt meta
C++ day42 C++的其他类库（除STL外）

STL已经提供了一个非常好的可重用代码源 xff0c STL工具可以被用来解决很多编程问题了 xff0c 但是C 43 43 还是觉得不够 xff0c 在STL之外 xff0c 也提供了一些模板类 xff0c 这些模板类基本都是用来做一件很
python爬虫beautifulsoup详细教程

BeautifulSoup4是爬虫必学的技能 BeautifulSoup最主要的功能是从网页抓取数据 xff0c Beautiful Soup自动将输入文档转换为Unicode编码 xff0c 输出文档转换为utf 8编码 Beautifu

python爬虫beautifulsoup详细教程

python爬虫beautifulsoup详细教程 的相关文章

随机推荐

热门标签

python爬虫beautifulsoup详细教程的相关文章