python爬虫--beautifulsoup使用介绍

2023-11-05

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度

# coding:utf-8
from bs4 import BeautifulSoup
import requests
url = 'http://python123.io/ws/demo.html'
r = requests.get(url)
demo = r.text  # 服务器返回响应
soup = BeautifulSoup(demo, "html.parser")
#demo 表示被解析的html格式的内容    html.parser表示解析用的解析器
print(soup)  # 输出响应的html对象
print(soup.prettify())  # 使用prettify()格式化显示输出


#另外一种方式
import requests
from bs4 import BeautifulSoup
all_url = 'http://www.mzitu.com/all/'
start_html = requests.get(all_url, headers=headers)   
Soup = BeautifulSoup(start_html.text, "lxml")

得到一个BeautifulSoup对象后，一般通过BeautifulSoup类的基本元素来提取html中的内容

2.提取html中的信息

demo中的html内容如下：

print(soup.title)  # 获取html的title标签的信息
print(soup.a)  # 获取html的a标签的信息(soup.a默认获取第一个a标签，想获取全部就用for循环去遍历)
print(soup.a.name)   # 获取a标签的名字
print(soup.a.parent.name)   # a标签的父标签(上一级标签)的名字
print(soup.a.parent.parent.name)  # a标签的父标签的父标签的名字

print('a标签类型是：', type(soup.a))   # 查看a标签的类型
print('第一个a标签的属性是：', soup.a.attrs)  # 获取a标签的所有属性(注意到格式是字典)
print('a标签属性的类型是：', type(soup.a.attrs))  # 查看a标签属性的类型
print('a标签的class属性是：', soup.a.attrs['class'])   # 因为是字典，通过字典的方式获取a标签的class属性
print('a标签的href属性是：', soup.a.attrs['href'])   # 同样，通过字典的方式获取a标签的href属性

print('第一个a标签的内容是：', soup.a.string)  # a标签的非属性字符串信息，表示尖括号之间的那部分字符串
print('a标签的非属性字符串的类型是：', type(soup.a.string))  # 查看标签string字符串的类型
print('第一个p标签的内容是：', soup.p.string)  # p标签的字符串信息(注意p标签中还有个b标签，但是打印string时并未打印b标签，说明string类型是可跨越多个标签层次)

介绍一下find_all()方法：

常用通过find_all()方法来查找标签元素：<>.find_all(name, attrs, recursive, string, **kwargs) ，返回一个列表类型，存储查找的结果

• name：对标签名称的检索字符串
• attrs：对标签属性值的检索字符串，可标注属性检索
• recursive：是否对子孙全部检索，默认True
• string：<>…</>中字符串区域的检索字符串

（1）

print('所有a标签的内容：', soup.find_all('a')) # 使用find_all()方法通过标签名称查找a标签,返回的是一个列表类型
print('a标签和b标签的内容：', soup.find_all(['a', 'b']))  # 把a标签和b标签作为一个列表传递，可以一次找到a标签和b标签

（2）

for t in soup.find_all('a'):  # for循环遍历所有a标签，并把返回列表中的内容赋给t
      print('t的值是：', t)  # link得到的是标签对象
      print('t的类型是：', type(t))
      print('a标签中的href属性是：', t.get('href'))  # 获取a标签中的url链接

（3）

for i in soup.find_all(True):  # 如果给出的标签名称是True，则找到所有标签
    print('标签名称：', i.name)  # 打印标签名称

（4）

print('href属性为http..的a标签元素是:', soup.find_all('a', href='http://www.icourse163.org/course/BIT-268001'))  # 标注属性检索
print('class属性为title的标签元素是：', soup.find_all(class_='title'))  # 指定属性，查找class属性为title的标签元素，注意因为class是python的关键字，所以这里需要加个下划线'_'
print('id属性为link1的标签元素是：', soup.find_all(id='link1'))  # 查找id属性为link1的标签元素

（5）

print(soup.head)  # head标签
print(soup.head.contents)   # head标签的儿子标签，contents返回的是列表类型
print(soup.body.contents)   # body标签的儿子标签
"""对于一个标签的儿子节点，不仅包括标签节点，也包括字符串节点，比如返回结果中的 \n"""

（6）

print(len(soup.body.contents))  # 获得body标签儿子节点的数量
print(soup.body.contents[1])   # 通过列表索引获取第一个节点的内容

（7）

print(type(soup.body.children))  # children返回的是一个迭代对象，只能通过for循环来使用，不能直接通过索引来读取其中的内容
for i in soup.body.children:   # 通过for循环遍历body标签的儿子节点
    print(i.name)   # 打印节点的名字

总结文章原链接：python爬虫学习(一)：BeautifulSoup库基础及一般元素提取方法 - 我是冰霜 - 博客园，如有侵权，请联系！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

编程语言

python

爬虫

python爬虫--beautifulsoup使用介绍的相关文章

Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

在el-select多选框里面设置input搜索框并能实现搜索功能

效果 1 当在输入框里面输入内容时就开始进行筛选下拉框显示筛选之后的数据 2 当没有符合条件时显示无数据 3 清空输入框里面的内容后下拉框显示全部的数据思路 1 通过给搜索框设置oninput事件 oninput 当input的va
在jupyter notebook中安装R核心

在jupyter notebook中安装R核心 1 从R官网安装R language https www r project org 点击Download下面的CRAN 找到China 中国镜像站任意选择一个就好这里推荐第一个清华镜像
java.io.IOException: Stream closed解决办法

1 出现这个bug的大体逻辑代码如下 1 private static void findMovieId throws Exception 2 File resultFile new File C 2016 txt 3 4 OutputSt
RESTful 风格详解

一什么是Restful风格 1 1 概念 RESTFUL是一种网络应用程序的设计风格和开发方式基于HTTP 可以使用 XML 格式定义或 JSON 格式定义最常用的数据格式是JSON 由于JSON能直接被JavaScript读取所以
任务列表 php,Laravel入门教程实战：任务列表(基础版)

1 介绍该快速入门指南提供了Laravel框架的基本介绍包含了数据库迁移 Eloquent ORM 路由验证视图 Blade模版等内容如果你是Laravel框架或者PHP框架的新手这将是一个很好的起点如果你已经在使用Larav
＜数据结构＞单链表基本功能实现

文章目录前言一单链表实验二使用步骤 1 链表基本功能 2 代码功能实现总结前言提示本篇主要是本小白大学期间对数据结构实验的一些基本代码功能实现希望对一同数据结构的伙伴有所帮助提示以下是本篇文章正文内容下面案例可供参
LINGO求解规划问题代码

文章目录线性规划标量线性规划矩阵线性规划非线性规划无特殊限制整数规划 01规划写在开头 LINGO默认所有变量是非负的 LINGO中没有严格的 lt 和 gt lt 代表 lt gt 代表 gt LINGO不区分变量的大小写
CentOS7.6 编译安装LNMP+Zabbix5.0

一服务器信息操作系统 CentOS Linux release 7 6 1810 Core 环境内网环境无公网出口 YUM源本地yum MySQL版本 5 7 32 Nginx版本 nginx 1 22 0 PHP版本 php 7
在前端vue项目引入less，使用less，在less引用外部文件，在less中使用变量

在前端vue项目引入less 使用less 在less引用外部文件在less中使用变量一 less是什么二操作步骤 1 引入库 2 设置style的lang属性 3 使用less less 中的 calc 总结一 less是什么
不带头结点的单链表c语言,不带头结点的单链表的实现（C语言）

不带头结点的单链表的实现 C语言不带头结点的单链表的实现 C语言链表中的数据是以结点来表示的每个结点的构成元素数据元素的映象指针指示后继元素存储位置元素就是存储数据的存储单元指针就是连接每个结点的地址数据以结点的序列
Zabbix的模板管理与配置

Zabbix的模板管理与配置一查看默认模板的配置项 1 打开客户端信息配置界面 2 选择默认模板的监控项二服务端获取客户端的监控项 1 获取客户端系统相关监控项 2 获取客户端硬盘信息等相关监控项三创建自定义监控项的key 1
unity的lineRenderer

本文转载自 http blog csdn net zuoyamin article details 8997729 LineRenderer线渲染器主要是用于在3D中渲染线段虽然我们也可以使用GL图像库来渲染线段但是使用LineRend
MCP2515板级驱动

MCP2515板级驱动前言一 MCP2515简述二硬件连接三驱动源码前言在需要多路CAN接口应用场景可选方案一般为带CAN接口的协处理器或者是独立的CAN控制器独立的CAN控制器常用的有SJA1000 MCP2515等
工具、学习网站

目录图片处理工具 1 BgRemover 在线图片去底工具 2 Convertio 文件转换器 3 视频转音频 4 视频转 Gif 5 传图识色 6 本地图片在线存储引用 Image Upload 7 RGB CMYK 转换工具各大工具
单链表实现

代码编写程序实现单向链表数据结构 public class Node Object data Node next public class MyLinkedList Node header 添加数据的方法删除数据的方法修改数据的方法
【精】【Java8】===两个List集合取交集、并集、差集

业务场景根据用户查询权限入参 UserCode lastQueryTime 上次查询时间出参权限变化的列表 oldList 上次查询到的权限列表 currList 当前查询到的权限列表比对两个list找出移除和增加的权限加以标识
Idea登录Github invalid authentication data. 404 Not Found-Not Foun

转发地址点击我
用git拉代码

1 新建远程仓库下载和安装git 傻瓜方式next 登录或注册账号进入界面创建仓库 1 2添加ssh公钥并下载项目用vscode打开随便建一个文件 1 3git创建分支和切换分支相当于分支是队员们的一套代码主支是组长的队员在分支
Springboot Thymeleaf Html转Pdf

新建项目说明用itextpdf写pdf 样式实在是太折磨了这里选用Thymeleaf模板生成html转pdf html css写样式排版好太多了引入依赖
python爬虫--beautifulsoup使用介绍

简单来说 Beautiful Soup是python的一个库最主要的功能是从网页抓取数据官方解释如下 Beautiful Soup提供一些简单的 python式的函数用来处理导航搜索修改分析树等功能它是一个工具箱通过解析文档为用

python爬虫--beautifulsoup使用介绍

python爬虫--beautifulsoup使用介绍 的相关文章

随机推荐

热门标签

python爬虫--beautifulsoup使用介绍的相关文章