python 使用for循环简单爬取图片(1)

2023-11-10

现在的网站大多做了反爬处理,找一个能爬的网站还真不容易。

 下面开始一步步实现:

1.简单爬录目图片

 1 import urllib.request
 2 import re
 3 
 4 def gethtml(url):
 5     page=urllib.request.urlopen(url)
 6     html=page.read().decode('utf-8')
 7 
 8     return html
 9 
10 def getimg(html):
11     
12     a=re.compile(r'src="(.+?\.jpg)"')
13     tp=a.findall(html)
14     x=0
15     
16     for img in tp:
17         urllib.request.urlretrieve(img,'d:/tupian/%s.jpg' % x)
18         x+=1
19 
20
21 url="http://www.meituba.com/yijing/28426.html"
22 
23 html=gethtml(url)
24 getimg(html)

2.爬图集

这里仅仅是爬取了录目上的图片,还没有涉及到for循环遍历,针对我们的目标,我们要尽可能仔细观察它的规律。

这里我们随便点进去一个图片集,如图:

打开后看到该图片集一共是6张,

分析一下它的url 和页面的源代码:

1,url分析

这里就不贴图片了,我直接说吧

第一张图片(也就是第一页)的url=“http://www.meituba.com/yijing/28426.html”

第二张图片的url=“http://www.meituba.com/yijing/28426_2.html”

。。。。。

第六页图片的url=“http://www.meituba.com/yijing/28426_6.html”

我们可以发现规律,这里直接改一下'_'后面的数字,这里就需要for循环了

2,源代码的规律:

这里我们用正则表达式就应该稍作修改:

应该这样写:r'src="(.+?\.jpg)" /'

好了,下面就开始代码实现:

import urllib.request
import re

def gethtml(url):
    page=urllib.request.urlopen(url)
    html=page.read().decode('utf-8')

    return html

def getimg(html):
    
    a=re.compile(r'src="(.+?\.jpg)" /')
    b=a.findall(html)
    
    
    for img in b:
        urllib.request.urlretrieve(img,'d:/tupian/%s.jpg' % x)


x=0
    
for i in range(1,7):

    if i==1:
        url="http://www.meituba.com/yijing/28426.html"
    else:
        url=("http://www.meituba.com/yijing/28426_%s.html" % i)

    html=gethtml(url)
    
    x+=1
    
    getimg(html)

 

 

1.这里有很多值得我们研究的问题比如第一页的url跟其他页的url有出入,所以我们应该想办法把第一页的图片也加进去,大家可以用if函数实现

看代码吧

2.关于urlretrieve()函数,在保存下载路径的时候要写出全路径,这里的

      urllib.request.urlretrieve(img,'d:/tupian/%s.jpg' % x)

就应该做出变化了,我们可以理解一下,在第一个代码中,
我们将 x 这个函数直接定义在函数中,但那是在爬取一个网页下的所有图片,可我们的第二个代码是爬取每个页面下的一张图片,如果我们还是将 x 定义在函数中,那么就会出现一个问题,在文件夹中只会爬到一张图片
大家可以想想原因,
其实当我们用for循环遍历所有url时,getimg()函数是被一遍遍调用的,当第一个url下的图片被爬下来后,它的名称是 0.jpg 那么下一次下一个页面爬到的图片也将被命名为0.jpg
这样系统就只会默认的保存一张图片,所以我们在命名的时候应该注意这一点,
只需要将 x 的初始值定义在for循环的外面就可以了

参考:https://my.oschina.net/talentwang/blog/48524

 

3.一个图集的图片实在不能满足我们。

 

一般来说,我们可以通过观察页面url的规律来推出下一个url的地址,可我接下来观察了几个连续图集中的url的信息

28426
28429

28435
28438

28443
28445

28456
28461

本人数学不好,实在发现不了规律,其实在每个图集的下方都会给下一个图集的链接,这就给我们提供了思路,大家如果在爬取某个页面时遇到这种问题,不妨试一下

好了开始我们的代码实现了:下面仅仅是获取下个图集的url地址的代码,其余的下次补全:

import urllib.request
import re
from bs4 import BeautifulSoup


def gethtml(url):
    page=urllib.request.urlopen(url)
    html=page.read().decode('utf-8')
    soup=BeautifulSoup(html,'html.parser')
    return soup

def getimg(html):
    
    b=html.find_all("div",{"class":"descriptionBox"})
    href=re.compile(r'<b>下一篇:</b><a href="(.+?\.html)">')
    c=href.findall(str(b))
    print(c)
    print(type(c))
    e="http://www.meituba.com"+('').join(c)
    print(e)
    d=urllib.request.urlopen(e)
    f=d.read().decode('utf-8')
    print(f)
url="http://www.meituba.com/yijing/28426.html"
soup=gethtml(url)
getimg(soup)

 运行可以看到它已经可以成功的打印出下一个图集的html页面源代码。

之后再把所有代码总结一下,

今天就写到这,(明天继续)

转载于:https://www.cnblogs.com/jjj-fly/p/6705925.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python 使用for循环简单爬取图片(1) 的相关文章

随机推荐

  • STM32开发实例 基于STM32单片机的智能机房系统

    一 系统设计 由 STM32F103C8T6单片机最小系统 DHT11温湿度传感器 ACS712测电流模块 MO 2烟雾传感器 ESP8266无线传输模块 可以通过RSP8266将温湿度值 烟雾浓度值 测得电流值显示到上位机 在上位机可以调
  • orange's一个操作系统的实现的前五章文件组织整理

    Orange s一个操作系统的实现的前五章文件组织整理 Tree Makefile a img 虚拟软盘 bochsrc bochs虚拟机配置 boot boot asm 编译为boot bin文件后被BIOS加载到内存 然后在a img中
  • CentOS7编译安装Nginx(Openresty)

    环境准备 yum y install automake autoconf libtool make gcc gcc c gcc g77 readline devel pcre devel openssl devel tcl perl lib
  • ABP.io 迁移数据库遇到的BUG

    文章目录 项目描述 1 Your startup project AbpDemo Application doesn t reference Microsoft EntityFrameworkCore Design 2 An error o
  • idea隐藏文件或文件夹

    strings gt Editor gt File Types gt Ignored Files and Folders中添加要隐藏的文件或文件夹 支持通配符
  • 【netty】Netty粘包问题TooLongFrameException: Adjusted frame length exceeds

    文章目录 1 概述 1 概述 此问题参考 Flink Flink 任务报错 akka remote connection TooLongFrameException adjusted frame length discarded 我这里主要
  • 边缘计算概念以及应用

    什么是边缘计算 边缘计算是为应用开发者和服务提供商在网络的边缘侧提供云服务和IT环境服务 边缘计算的目标是在靠近数据输入或用户的地方提供计算 存储和网络带宽 边缘计算 是一种分散式运算的架构 在这种架构下 将应用程序 数据资料与服务的运算
  • R语言之词云:wordcloud&wordcloud2安装及参数说明

    一 wordcloud安装说明 install packages wordcloud 二 wordcloud2安装说明 install packages devtools devtools install github lchiffon w
  • 心电信号越界怎么回事_心电图机的干扰及其正确处理方法

    心电图机是记录人体体表各点随时间而变化的心电波形的医疗仪器 医生根据心电图机所记录的波形的形态 波幅大小以及各波之间的相对时间关系来鉴别诊断心脏疾病 因此 心电图机所记录的心电图的精确度对于心脏疾病的鉴别诊断至关重要 但是 由于心电信号比较
  • JAVA面试常考

    1 自我介绍 讲下最有难度的项目 2 对线程安全的理解 3 比如有一个局部变量i 1 两个线程同时执行 是否线程安全 4 比如再有一个共享变量 如何保证线程安全 5 说说ThreadLocal 底层如何实现 6 hashmap实现原理 7
  • 【BATCHNORMALIZATION、LAYERNORMALIZATION、INSTANCENORMALIZATION和GROUPNORMALIZATION】

    总览 神经网络中有各种归一化算法 Batch Normalization BN Layer Normalization LN Instance Normalization IN Group Normalization GN 从公式看它们都差
  • ServerSocket 的建立与使用(多线程)

    1 main方法 package peixun public class MyServerSocket public static void main String args new ServerListener start 2 建立连接
  • 多元线性回归的梯度下降

    目录 1 线性回归的基本概念 2 线性回归算法 3 多元梯度下降算法 4 总结 1 线性回归的基本概念 在回归分析中 如果只包含一个自变量和一个因变量 且二者关心可近似用一条直线表示 则称该回归分析为一元线性回归分析 如果包含两个及两个以上
  • 多模态(图像和文本跨模态)分类

    文章目录 前言 一 数据集介绍 二 处理过程 1 处理图片文本标签数据 1 将label由消极 中立 积极的标签变成数字 0 1 2 并且将其保存在path2label字典中 2 分别将图像文件和文本文件形成列表 3 分别将文本内容 对应的
  • 计算机插本2a院校,广东省专插本2A院校有哪些

    满意答案 yandianhua 2012 12 23 采纳率 45 等级 12 已帮助 15307人 晨光英语考试团很荣幸为您解答 2011年广东省本科插班生招生院校名单 院校代码 院校名称 以下院校是2A线的 533 深圳大学 534 五
  • 刷题之455. 分发饼干 -----贪心初试

    假设你是一位很棒的家长 想要给你的孩子们一些小饼干 但是 每个孩子最多只能给一块饼干 对每个孩子 i 都有一个胃口值 g i 这是能让孩子们满足胃口的饼干的最小尺寸 并且每块饼干 j 都有一个尺寸 s j 如果 s j gt g i 我们可
  • 性能测试浅谈

    早期的性能测试更关注后端服务的处理能力 一个用户去访问一个页面的请求过程 如上图 数据传输时间 当你从浏览器输入网址 敲下回车 开始 真实的用户场景请不要忽视数据传输时间 想想你给远方的朋友写信 信件需要经过不同的交通运输工具送到朋友手上
  • 去除移动端h5的横向滚动条

    我的问题是 在移动端第一次访问h5页面时 页面尺寸被放大了一点 没有手机适配 所以出现了横向滚动条 手指缩小页面尺寸后 横向滚动条才消失 解决方案 在入口页面index html的标签里添加下面一行代码
  • Qt中的中信号槽与异步调用

    Qt中使用信号 槽机制处理跨对象之间的调用 该机制的好处有 1 使得调用关系的绑定和解除十分灵活 不必修改类成员函数代码 2 在不暴露更多全局变量的情况下实现跨命名空间调用 3 可以多个信号对应多个槽 也可以信号之间绑定 对应于GUI中的逻
  • python 使用for循环简单爬取图片(1)

    现在的网站大多做了反爬处理 找一个能爬的网站还真不容易 下面开始一步步实现 1 简单爬录目图片 1 import urllib request 2 import re 3 4 def gethtml url 5 page urllib re