Python爬虫从入门到精通:（5）数据解析_使用正则进行图片数据的批量解析爬取_Python涛哥

2023-11-05

我们先来看下如何爬取图片数据？

方式1：基于requests
方式2:基于urllib

urllib模块作用和requests模块一样，都是基于网络请求的模块

当requests问世后就迅速的替代了urllib模块

比如，我们现在准备爬取这张可爱的熊熊。
在这里插入图片描述

先右键复制图片地址：

img_url = 'https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fpic21.nipic.com%2F20120606%2F5137861_093119370162_2.jpg&refer=http%3A%2F%2Fpic21.nipic.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=jpeg?sec=1634794705&t=162f415928fef44dc6fb006639dd034d'

requests方式:

response = requests.get(url=img_url, headers=headers)
img_data = response.content  # content返回的是二进制形式的响应数据
with open('1.jpg', 'wb') as f:
    f.write(img_data)

urllib方式:

# 可以直接对url发起请求并且进行持久化存储
urllib.request.urlretrieve(img_url, './2.jpg')

上述两种爬起图片的操作不同之处是什么？

使用urllib的方式爬取图片无法进行UA伪装，而requests的方式可以。不需要UA伪装的情况下，使用urllib下载图片更方便！

使用正则批量爬取校花网中的图片数据
在这里插入图片描述

url = http://www.521609.com/daxuexiaohua

操作：需要将每一张图片的地址解析出来，然后对图片地址发起请求即可

写代码之前，我们先再来了解下 浏览器开发者工具：

分析浏览器开发者工具中Elements和network这两个选项卡对应的页面源码数据有何不同之处？

Elements中包含的显示的页面源码数据为当前页面所有的数据加载完毕后对应的完整页面源码数据(包含了动态加载数据)
network中显示的页面源码数据仅仅为某一个单独的请求对应的响应数据（不包含动态加载数据）

在这里插入图片描述

结论：如果在进行数据解析的时候，一定是需要对页面布局进行分析，如果当前网站没有动态加载的数据就可以直接使用Elements对页面布局进行分析。否则只可以使用network对页面数据进行分析。

写代码之前：

我们需要使用Elements捕获出图片地址，可以看到图片地址在源码里的<li>节点里：

在这里插入图片描述

复制<li>节点里的源码：

在这里插入图片描述

<li><a href="/daxuexiaohua/11124.html">
    <img src="/uploads/allimg/140717/1-140GF92J7-lp.jpg" width="160" height="220" border="0" alt=" 中国传媒大学上官青桐 ">
    </a><br>
	<a href="/daxuexiaohua/11124.html" class="title"><b>中国传媒大学上官青桐</b>
	</a>
</li>

现在开始写代码:（咱们课程主要讲解爬虫的抓包方式和解析方法，具体正则写法等基础教程，可以自行先去学习）

import re
import os

# 1.捕获到当前首页的页面源码数据
url1 = 'http://www.521609.com/daxuexiaohua'
page_text = requests.get(url=url1, headers=headers).text

# 2.从当前获取的页面源码数据中解析出图片地址，并用正则写出：
ex = '<li>.*?<img src="(.*?)" width=.*?</li>'

# 正则写好后我们现在开始获取
img_src_list = re.findall(ex, page_text)
print(img_src_list)
# 我们发现打印的是[]。这是因为源码里有空格和换行
# 代码应该是:
img_src_list = re.findall(ex, page_text, re.S)
print(img_src_list)
# 现在我们看出获取的地址只是部分，例：'/uploads/allimg/140717/1-140GF92J7-lp.jpg'
# 我们可以直接在网页上复制图片地址'http://www.521609.com/uploads/allimg/140717/1-140GF92J7-lp.jpg'
# 加上前缀，遍历列表，获取完整地址.进行请求

# 新建个文件夹存储图片
dirName = 'ImgLibs'
if not os.path.exists(dirName):
    os.mkdir(dirName)

for src in img_src_list:
    src = 'http://www.521609.com' + src
    imgPath = dirName + '/' + src.split('/')[-1]  # 图片名称
    urllib.request.urlretrieve(src, imgPath)
    print(imgPath, '下载成功!!!')

结果我们就看到了许多小姐姐照片了！

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

Python爬虫从入门到精通:（5）数据解析_使用正则进行图片数据的批量解析爬取_Python涛哥的相关文章

尽管极其懒惰，但如何在 Python 中模拟 IMAP 服务器？

我很好奇是否有一种简单的方法来模拟 IMAP 服务器例如imaplib模块在Python中 without做很多工作是否有预先存在的解决方案理想情况下我可以连接到现有的 IMAP 服务器进行转储并让模拟服务器在真实的邮箱电子
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数

随机推荐

用虚拟串口进行串口调试

由于现在的笔记本电脑一般不带有串口再进行串口调试时可以用虚拟串口代替虚拟串口下载链接虚拟串口 Win7 下载串口调试助手下载链接串口调试助手 VS2010串口程序使用的unicode库纯API 不利用Mscomm控件下载链
bulk interface驱动_USB驱动程序(较详细）一

拓扑结构上一个 USB 子系统并不是以总线的方式来分布它是一棵由几个点对点连接构成的树这些连接是连接设备和集线器的4线电缆地电源和 2 个差分信号线如同以太网的双绞线 USB主控制器负责询问每个USB设备是否有数据需要发送由
‘VB6EXT.OLB’ could not be registered

打开VB6提示 VB6EXT OLB could not be registered 解决办法用管理员打开实测可行参考 VB6 Error please help VBForums
el-select-dropdown 修改下拉框的样式

问题描述使用el select的时候有时候需要修改下拉框的样式但是el select dropdown必须添加类名才能修改他的样式问题解决 1 popper class element提供了为下拉框绑定类名的api 绑定类名之后使用
利用python在网上接单赚钱，兼职也能月入过万，还不赶紧学起来

看完这篇回答至少给你省去95 找答案的时间我觉得python接单我是最有发言权的从2016年进入大学我就是一个不安分的学生总是想着通过自己的技术来实现财富自由我崇拜雷军我觉得雷布斯不仅技术强而且很有商业头脑可是我是个呆呆的瓜
PID控制原理解释

PID控制原理解释文章目录 PID控制原理解释 0 前言 1 控制原理图解释 2 算法分析 3 PID数学模型解释 4 调参技巧说明 0 前言参考网址 http blog gkong com liaochangchu 117560 as
Python 之os.walk()方法

os walk方法主要用来遍历一个目录内各个子目录和子文件这个对于文件夹下遍历所有文件非常好用对于数据处理也是很常见 os walk top topdown True nerr r None followlinks False 可以得
（转）关于Unity中的Input输入事件

截获鼠标键盘的消息监听事件我们都是在Update里面监听的 Unity的虚拟轴打开 Edit gt Project Settings gt Input 打开的各个Name就是双引号里面要填的记不住就打开查也可以自己定义一些按键一
visual studio：VC版本号与VS对应关系

参考 VC版本号与VS对应关系
java解压zip压缩包

坐在旁边的小伙伴问我怎么用 java 将服务器上的压缩文件解压出来我索性给他写了个 demo 也顺手记录一下亲测可用如果觉得有帮助欢迎点赞评论收藏转发 java 实现解压 zip 压缩包 package com yuhuofe
Python获取文件夹中所有路径+名称

获取文件夹中所有路径名称 import os img dir r home aistudio data train out file home aistudio data train image paths txt with open o
package.json 同时执行多个命令

在 package json 的 scripts 字段中我们可以通过在命令中使用连接符来同时执行多个命令具体写法如下 Copy Code scripts command1 echo Command 1 ls al command2 c
前端面试题（一） promise和async/await区别

promise和async await都是处理异步请求 promise的用法基本语法 promise共有三个状态链式调用错误捕获 async await 用法错误捕获区别拓展 js中同步异步 js的同步和异步问题通常是指aja
AR（增强现实） unity+vuforia 基础教程（2）！

默认已经下载vuforia for unity 请移步到https developer vuforia com downloads sdk 1 打开unity 然后建立一个新的Project 2 点击Assets gt Import Pac
Java并发编程—线程池参数配置、线程池配置、线程池监控

文章目录一线程池的参数配置 1 corePoolSize核心线程数选择 2 workQueue工作队列阻塞队列选择 3 阻塞队列长度和最大线程数选择 4 拒绝策略选择二 SpringBoot环境下配置线程池 1 线程池配置 2 线
服务器ubuntu系统版本选型原则,系统集成 - 选择Ubuntu服务器版操作系统的六大理由_服务器应用_Linux公社-Linux系统门户网站...

二系统集成 1 集成现有的系统 Ubuntu服务器版本用常用的身份认证方式和服务入口工具简单地集成企业现有的客户服务器结构我们都知道系统集成技术的重要性这也是Ubuntu团队花费大量时间研究如何实现服务器与基础设施简单融合的原因 2
使用Java生成6位或4位随机数的短信验证码

代码如下 package XXXXX import java security SecureRandom import java util Random 作用用于发送短信验证码 br 使用场景找回密码 date Created by S
焊接机器人的绪论

前言在实际焊接中焊接条件是经常变化的如加工和装配上的误差会造成焊缝位置和尺寸的变化焊接过程中工件受热及散热条件改变会造成焊道变形和熔透不均通过采用视觉传感方式将初始焊位导引焊缝跟踪及焊接熔池的熔透实时控制结合起来可以完成诸如
Vue3父组件调用子组件的方法-子组件向父组件传值

setup写法父组件
Python爬虫从入门到精通:（5）数据解析_使用正则进行图片数据的批量解析爬取_Python涛哥

我们先来看下如何爬取图片数据方式1 基于requests 方式2 基于urllib urllib模块作用和requests模块一样都是基于网络请求的模块当requests问世后就迅速的替代了urllib模块比如我们现在准备爬取这张

Python爬虫从入门到精通:（5）数据解析_使用正则进行图片数据的批量解析爬取_Python涛哥

Python爬虫从入门到精通:（5）数据解析_使用正则进行图片数据的批量解析爬取_Python涛哥 的相关文章

随机推荐

热门标签

Python爬虫从入门到精通:（5）数据解析_使用正则进行图片数据的批量解析爬取_Python涛哥的相关文章