Python爬虫：爬取网页图片

2023-11-06

在这里插入图片描述

开始：

最近在自学爬虫，自己也做了一些实例，（自认为）写的比较好的就是对整个网站的爬取了。接下来我将会说一说我使用的工具及方法。

注意：为了尊重网站维护人员，我只爬取了网站首页的24个套图，其余的，需要的小伙伴可以自行添加翻页操作！！！

编译环境和所需库

IDE： PyCharm Community Edition 2020.1 x64
python版本： 3.8.2
所需库： requests ， BeautifulSoup4，os，time，random

分析与步骤：

第一步

废话不多说，我们直接开始：
第一件事就是导库了，这个简单，就不用我多说了吧。直接上代码：

import os
import time
from random import random
import requests
from bs4 import BeautifulSoup

第二步

这第二件事当然是要去请求网站了，但是我们了解到该网站有反爬机制，所以我们必须先包装一下自己。

ref_url='https://www.mzitu.com'
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36 Edg/81.0.416.53',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
    'cache-control': 'max-age=0',
    'Referer': ref_url
    }

问：为什么 headers 字段中 Referer 的值要设为全局变量？
答：因为我在测试代码可行性的时候发现，当 Referer 的值为一个定值时，请求大量数据，就会触发反爬机制，导致出现下标越界（或者是找不到某个标签）的异常。从而导致爬取中断。另外根据网站的反爬机制，Referer 字段是必须要有的。

第三步

当我们打开主页就会发现，主页上有24个套图链接，每个套图链接就是一套写真。所以，我们首先爬取的应该是主页上这24个套图链接：
打开浏览器进入主页后查看源码，我们可以看到，首页中24个套图链接都在 ‘ li ’ 标签里面。
所以在代码中，我先用 BeautifulSoup 解析源码，将每套图的 ‘ li ’ 标签保存到 Temp_list 中。
再利用 for 提取出每个套图链接，再次进行解析。取出每个 ’ a ’ 标签属性中的 ’ href ’ 字段的值。
又将 ’ href ’ 字段的值作为关键字，保存每套图的名字（每个 ’ img ’ 标签属性中的 ’ alt ’ 字段的值），生成一个字典。
最后，提示当前页面的所有链接都保存成功。
代码如下：

def get_main_url(url):  # 获取每个主页的24个图片链接
    res = requests.get(url,headers=header)
    soup = BeautifulSoup(res.text, 'html.parser')
    Temp_list = soup.find_all('li')[8:]
    # [8:] 的目的是过滤掉多余的 li 标签
    for lab_list in Temp_list:
        div = BeautifulSoup(str(lab_list), 'html.parser')
        main_url.append(div.a.attrs['href'])  
        # 每个主页中套图详情列表链接
        name_dict[div.a.attrs['href']] = div.img.attrs['alt']
        # 每个主页中套图名字列表
    print("获取当前页面所有链接成功！")

第四步

来到这里，我首先用 for 挨个取出这24个套图链接。
然后取出每一个套图链接的名字，判断是否有同名文件夹，如果有，则跳过，如果没有，则创建。
接着对每个链接进行解析，找出该套图链接中的图片页数。
紧接着，利用 for 进行翻页操作。
for 每翻一页，就对当前页面进行解析。
通过 BeautifulSoup 解析后，取出 ’ div ’ 标签下， ’ img ’ 属性中的 ‘ arc ’ 字段的值，即为高清图片的地址。
通过 requests 库请求该图片链接（同样要带上 header ，不然仍然会触发反爬，导致图片出错）。
接下来利用 ‘ split ’ 对图片链接进行处理，取出当前图片名字作为图片名。
【 ’ split ‘ 不会用？点击查看使用方法】
最后，将转换为二进制的图片保存下来。
注意：当我们以一定频率或者速度（requests请求速度几乎是一定的）去大量的连续请求时，还是会触发反爬，所以在每爬完一张照片后开始随机休眠。（如果还是不够的话，可以写成 ’ time.sleep(random() * 5) ’ ,数字随便定，不过要注意：数字太大下载会很慢，太小会触发反爬，根据情况可以自行设置）
代码如下：

def get_image():
    global main_num,ref_url
    for now_url in main_url:
        main_num+=1   #第 main_num 套图
        ref_url=now_url  #修改当前的 Referer 
        
        if os.path.exists(path + '/' + name_dict[now_url]):
            pass
        else:
            os.mkdir(path + '/' + name_dict[now_url])
            
        response = requests.get(now_url, headers=header)
        soup = BeautifulSoup(response.text, 'html.parser')
        page_nums = soup.find('div', attrs={'class': "pagenavi"})
        page_num = BeautifulSoup(str(page_nums), 'html.parser').find_all('span')[-2].string
        
        for i in range(1, int(page_num) + 1):
            now_new_url = now_url + '/' + '{}'.format(i)
            new_response = requests.get(now_new_url, headers=header)
            Temp = BeautifulSoup(new_response.text, 'html.parser')
            image_url = Temp.find('div', attrs={'class': "main-image"}).img.attrs['src']
            image = requests.get(image_url,headers=header)
            name = str(image_url).split('/', 5)[-1]
            
            with open(path + '/' + name_dict[now_url] + '/' + name, 'wb') as f:
                f.write(image.content)
                print('正在爬取第'+str(main_num)+'个图库的第'+str(i)+'张图片,本页共'+page_num+'张照片。')
                time.sleep(random())

最后：

主要功能写完后，就可以开始用主函数调用了：

if __name__ == '__main__':
    start_time = time.time()
    get_main_url(url)
    get_image()
    end_time = time.time()
    print('耗时：' + str(end_time - start_time))

运行时展示：
在这里插入图片描述
最最最最最后：
附上我总结了三天经验后写出的源码：

import os
import time
from random import random
import requests
from bs4 import BeautifulSoup

path = './spider'
if os.path.exists(path):
    pass
else:
    os.mkdir(path)
url = 'https://www.mzitu.com'
main_url = []
name_dict = {}
main_num = 0

ref_url='https://www.mzitu.com'
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36 Edg/81.0.416.53',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
    'cache-control': 'max-age=0',
    'Referer': ref_url
    }


def get_main_url(url):  # 获取每个主页的24个图片链接
    res = requests.get(url,headers=header)
    soup = BeautifulSoup(res.text, 'html.parser')
    Temp_list = soup.find_all('li')[8:]
    for lab_list in Temp_list:
        div = BeautifulSoup(str(lab_list), 'html.parser')
        main_url.append(div.a.attrs['href'])  # 每个主页中图片详情列表链接
        name_dict[div.a.attrs['href']] = div.img.attrs['alt']
    print("获取当前页面所有链接成功！")


# <div class="main-image">  图片标签
# <div class="pagenavi">    页码标签
def get_image():
    global main_num,ref_url
    for now_url in main_url:
        main_num+=1
        ref_url=now_url
        if os.path.exists(path + '/' + name_dict[now_url]):
            pass
        else:
            os.mkdir(path + '/' + name_dict[now_url])
        response = requests.get(now_url, headers=header)
        soup = BeautifulSoup(response.text, 'html.parser')
        page_nums = soup.find('div', attrs={'class': "pagenavi"})
        page_num = BeautifulSoup(str(page_nums), 'html.parser').find_all('span')[-2].string
        for i in range(1, int(page_num) + 1):
            now_new_url = now_url + '/' + '{}'.format(i)
            new_response = requests.get(now_new_url, headers=header)
            Temp = BeautifulSoup(new_response.text, 'html.parser')
            image_url = Temp.find('div', attrs={'class': "main-image"}).img.attrs['src']
            image = requests.get(image_url,headers=header)
            name = str(image_url).split('/', 5)[-1]
            with open(path + '/' + name_dict[now_url] + '/' + name, 'wb') as f:
                f.write(image.content)
                print('正在爬取第'+str(main_num)+'个图库的第'+str(i)+'张图片,本页共'+page_num+'张照片。')
                time.sleep(random())

if __name__ == '__main__':
    start_time = time.time()
    get_main_url(url)
    get_image()
    end_time = time.time()
    print('耗时：' + str(end_time - start_time))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

脚本语言

Python爬虫：爬取网页图片的相关文章

如何在刻度标签和轴之间添加空间

我已成功增加刻度标签的字体但现在它们距离轴太近了我想在刻度标签和轴之间添加一点呼吸空间如果您不想全局更改间距通过编辑 rcParams 并且想要更简洁的方法请尝试以下操作 ax tick params axis both whic
Python PAM 模块的安全问题？

我有兴趣编写一个 PAM 模块该模块将利用流行的 Unix 登录身份验证机制我过去的大部分编程经验都是使用 Python 进行的并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

CUnit（c语言的单元测试）用法实例

修改官网测试 fprintf 和 fread 的 test c 而得原测试文件涉及文件读写操作依赖文件 stdlib h 库及 WinMain 等win32 API 对环境配置要求较多不适合于作为 CUnit 入门的实例编写 max
OpenAI最新官方ChatGPT聊天插件接口《智能聊天插件引言》全网最详细中英文实用指南和教程，助你零基础快速轻松掌握全新技术（一）（附源码）

Chat Plugins Limited Alpha 聊天插件前言 Introduction Plugin flow 插件流其它资料下载 Learn how to build a plugin that allows ChatGPT t
Let's Encrypt 泛域名证书申请

github https github com Neilpang acme sh 通过acme申请Let s Encrypt证书支持的域名DNS服务商有以下这些国内用户较多的 cloudxns dnspod aliyun 阿里云 clou
多进程操作sqlite的数据同步问题

背景最近写在多进程任务里操作sqlite的时候发现数据同步是个头疼的问题因为sqlite本身并不支持存储过程 procedure 它本身也没有可以单独调用对数据表的锁可能是我没找到如果有人知道还请赐教这就意味着在执行一系列修改数
Prime Sample Attention in Object Detection论文阅读翻译 - 2020CVPR

Prime Sample Attention in Object Detection论文阅读翻译文章目录 Prime Sample Attention in Object Detection论文阅读翻译一 Abstract 二 Intr
解决AES报错javax.crypto.BadPaddingException: Given final block not properly padded.........问题

最近对接接口加密方式选择了AES 本地测试都没问题放到服务器上果然又不是那么顺利 AES解密遇到javax crypto BadPaddingException Given final block not properly padded
Mycat启动报错 Encountered an error running main: java.lang.ExceptionInInitializerError

配置完schema xml server xml 后尝试启动mycat root localhost usr local mycat bin mycat start Starting Mycat server root localhost
Vue+Element+computed 实现购物车
数据结构总体复习（全），自己做了复习用的，需要自取

双向链表基本概念双向链表的节点中有两个指针域一个指向直接后继一个指向直接前驱双向链表中增加前驱数组Pre Pre p 记录存储位置为p的结点的前驱结点的存储位置时间复杂度主要就是看for循环顺序表的插入和删除 s next
Yarn参数优化

YARN 自从hadoop2 0之后我们可以使用apache yarn 来对集群资源进行管理 yarn把可以把资源内存 CPU 以Container的方式进行划分隔离 YARN会管理集群中所有机器的可用计算资源基于这些资源YARN会调
dategridview设置下拉框默认值_smtp服务器怎么设置

smtp服务器是什么意思 SMTP的全称是 SimpleMailTransferProtocol 即简单邮件传输协议它是一组用于从源地址到目的地址传输邮件的规范通过它来控制邮件的中转方式 SMTP协议属于TCP IP协议簇它帮助每台计
赶紧来修炼内功发~内存函数详解大全-memcpy、memmove、memcmp

目录 1 memcpy EX PS 模拟实现 2 memmove EX 编辑模拟实现 3 memcmp EX PS 模拟实现 4 memset EX 模拟实现 1 memcpy memcpy函数的作用为将source指向的地址拷贝num
永别了功能测试，我要跑路了

在软件测试行业功能测试一直被视为软件测试工作的核心部分然而在不断变化的互联网时代功能测试这个岗位正在面临着前所未有的挑战对于一个职业生涯悠久的软件测试工程师来说离开功能测试可能是他们必须要做出的选择 1 做好手工测试了解各种测
numpy之tile

numpy中tile函数形式 numpy tile A reps A 1 2 3 b np tile A 3 输出为 1 2 3 1 2 3 1 2 3 tile函数第二个参数是一个数用来控制A的重复次数的 c np tile A 2
微服务开发系列第十一篇：XXL-JOB

总概 A 技术栈开发语言 Java 1 8 数据库 MySQL Redis MongoDB Elasticsearch 微服务框架 Spring Cloud Alibaba 微服务网关 Spring Cloud Gateway 服务注册和
WSA - root，frida与ida测试

本文旨在配置windows subsystem for android win安卓子系统来作为win在开启了hyper v的情况下的一种轻量的安卓模拟器方案使用MagiskOnWsa设置root权限最终使其正常与开发环境 frida
docker--扩展学习-Machine--06

一简介可以让您在虚拟主机上安装 Docker 的工具可以使用 docker machine 命令来管理主机可以集中管理所有的 docker 主机比如快速的给 100 台服务器安装上 docker Docker Machine 管理
input[type='file']获取上传文件路径案例

最近在项目时需要获取用户的上传文件的路径便写了一个demo
vue实现flv格式视频播放

公司项目需要实现摄像头实时视频播放 flv格式的视频先百度使用flv js插件实现但是两个摄像头一个能放一个不能放没有找到原因开始两个都能放后端更改地址后不有一个不能放但是在另一个系统上是可以播放的使用的是jessibuca
Python爬虫：爬取网页图片

目录开始分析与步骤第一步第二步第三步第四步最后开始最近在自学爬虫自己也做了一些实例自认为写的比较好的就是对整个网站的爬取了接下来我将会说一说我使用的工具及方法注意为了尊重网站维护人员我只爬取了网站首页的24个

Python爬虫：爬取网页图片

目录

开始：

分析与步骤：

第一步

第二步

第三步

第四步

最后：

Python爬虫：爬取网页图片 的相关文章

随机推荐

热门标签

Python爬虫：爬取网页图片的相关文章