python 使用for循环简单爬取图片（1）

2023-11-10

现在的网站大多做了反爬处理，找一个能爬的网站还真不容易。

下面开始一步步实现：

1.简单爬录目图片

 1 import urllib.request
 2 import re
 3 
 4 def gethtml(url):
 5     page=urllib.request.urlopen(url)
 6     html=page.read().decode('utf-8')
 7 
 8     return html
 9 
10 def getimg(html):
11     
12     a=re.compile(r'src="(.+?\.jpg)"')
13     tp=a.findall(html)
14     x=0
15     
16     for img in tp:
17         urllib.request.urlretrieve(img,'d:/tupian/%s.jpg' % x)
18         x+=1
19 
20

21 url="http://www.meituba.com/yijing/28426.html"
22 
23 html=gethtml(url)
24 getimg(html)

2.爬图集

这里仅仅是爬取了录目上的图片，还没有涉及到for循环遍历，针对我们的目标，我们要尽可能仔细观察它的规律。

这里我们随便点进去一个图片集，如图：

打开后看到该图片集一共是6张，

分析一下它的url 和页面的源代码：

1，url分析

这里就不贴图片了，我直接说吧

第一张图片（也就是第一页）的url=“http://www.meituba.com/yijing/28426.html”

第二张图片的url=“http://www.meituba.com/yijing/28426_2.html”

。。。。。

第六页图片的url=“http://www.meituba.com/yijing/28426_6.html”

我们可以发现规律，这里直接改一下'_'后面的数字，这里就需要for循环了

2，源代码的规律：

这里我们用正则表达式就应该稍作修改：

应该这样写：r'src="(.+?\.jpg)" /'

好了，下面就开始代码实现：

import urllib.request
import re

def gethtml(url):
    page=urllib.request.urlopen(url)
    html=page.read().decode('utf-8')

    return html

def getimg(html):
    
    a=re.compile(r'src="(.+?\.jpg)" /')
    b=a.findall(html)
    
    
    for img in b:
        urllib.request.urlretrieve(img,'d:/tupian/%s.jpg' % x)


x=0
    
for i in range(1,7):

    if i==1:
        url="http://www.meituba.com/yijing/28426.html"
    else:
        url=("http://www.meituba.com/yijing/28426_%s.html" % i)

    html=gethtml(url)
    
    x+=1
    
    getimg(html)

1.这里有很多值得我们研究的问题比如第一页的url跟其他页的url有出入，所以我们应该想办法把第一页的图片也加进去，大家可以用if函数实现

看代码吧

2.关于urlretrieve()函数，在保存下载路径的时候要写出全路径，这里的

      urllib.request.urlretrieve(img,'d:/tupian/%s.jpg' % x)

就应该做出变化了，我们可以理解一下，在第一个代码中，
我们将 x 这个函数直接定义在函数中，但那是在爬取一个网页下的所有图片，可我们的第二个代码是爬取每个页面下的一张图片，如果我们还是将 x 定义在函数中，那么就会出现一个问题，在文件夹中只会爬到一张图片
大家可以想想原因，
其实当我们用for循环遍历所有url时，getimg()函数是被一遍遍调用的，当第一个url下的图片被爬下来后，它的名称是 0.jpg   那么下一次下一个页面爬到的图片也将被命名为0.jpg
这样系统就只会默认的保存一张图片，所以我们在命名的时候应该注意这一点，
只需要将 x 的初始值定义在for循环的外面就可以了

参考：https://my.oschina.net/talentwang/blog/48524

3.一个图集的图片实在不能满足我们。

一般来说，我们可以通过观察页面url的规律来推出下一个url的地址，可我接下来观察了几个连续图集中的url的信息

28426
28429

28435
28438

28443
28445

28456
28461

本人数学不好，实在发现不了规律，其实在每个图集的下方都会给下一个图集的链接，这就给我们提供了思路，大家如果在爬取某个页面时遇到这种问题，不妨试一下

好了开始我们的代码实现了：下面仅仅是获取下个图集的url地址的代码，其余的下次补全：

import urllib.request
import re
from bs4 import BeautifulSoup


def gethtml(url):
    page=urllib.request.urlopen(url)
    html=page.read().decode('utf-8')
    soup=BeautifulSoup(html,'html.parser')
    return soup

def getimg(html):
    
    b=html.find_all("div",{"class":"descriptionBox"})
    href=re.compile(r'<b>下一篇：</b><a href="(.+?\.html)">')
    c=href.findall(str(b))
    print(c)
    print(type(c))
    e="http://www.meituba.com"+('').join(c)
    print(e)
    d=urllib.request.urlopen(e)
    f=d.read().decode('utf-8')
    print(f)
url="http://www.meituba.com/yijing/28426.html"
soup=gethtml(url)
getimg(soup)

运行可以看到它已经可以成功的打印出下一个图集的html页面源代码。

之后再把所有代码总结一下，

今天就写到这，（明天继续）

转载于:https://www.cnblogs.com/jjj-fly/p/6705925.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

python 使用for循环简单爬取图片（1）的相关文章

如何查看Databricks中的所有数据库和表

我想列出 Azure Databricks 中每个数据库中的所有表所以我希望输出看起来像这样 Database Table name Database1 Table 1 Database1 Table 2 Database1 Table
没有名为 crypto.cipher 的模块

我现在正在尝试加密一段时间我最近得到了这个基于 python 的密码器名为PythonCrypter https github com jbertman PythonCrypter 我对 Python 相当陌生当我尝试通过终端打开 C
通过 Scrapy 抓取 Google Analytics

我一直在尝试使用 Scrapy 从 Google Analytics 获取一些数据尽管我是一个完全的 Python 新手但我已经取得了一些进展我现在可以通过 Scrapy 登录 Google Analytics 但我需要发出 AJAX
SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
将数据从 python pandas 数据框导出或写入 MS Access 表

我正在尝试将数据从 python pandas 数据框导出到现有的 MS Access 表我想用已更新的数据替换 MS Access 表在 python 中我尝试使用 pandas to sql 但收到错误消息我觉得很奇怪使用 p
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

STM32开发实例基于STM32单片机的智能机房系统

一系统设计由 STM32F103C8T6单片机最小系统 DHT11温湿度传感器 ACS712测电流模块 MO 2烟雾传感器 ESP8266无线传输模块可以通过RSP8266将温湿度值烟雾浓度值测得电流值显示到上位机在上位机可以调
orange's一个操作系统的实现的前五章文件组织整理

Orange s一个操作系统的实现的前五章文件组织整理 Tree Makefile a img 虚拟软盘 bochsrc bochs虚拟机配置 boot boot asm 编译为boot bin文件后被BIOS加载到内存然后在a img中
CentOS7编译安装Nginx(Openresty)

环境准备 yum y install automake autoconf libtool make gcc gcc c gcc g77 readline devel pcre devel openssl devel tcl perl lib
ABP.io 迁移数据库遇到的BUG

文章目录项目描述 1 Your startup project AbpDemo Application doesn t reference Microsoft EntityFrameworkCore Design 2 An error o
idea隐藏文件或文件夹

strings gt Editor gt File Types gt Ignored Files and Folders中添加要隐藏的文件或文件夹支持通配符
【netty】Netty粘包问题TooLongFrameException: Adjusted frame length exceeds

文章目录 1 概述 1 概述此问题参考 Flink Flink 任务报错 akka remote connection TooLongFrameException adjusted frame length discarded 我这里主要
边缘计算概念以及应用

什么是边缘计算边缘计算是为应用开发者和服务提供商在网络的边缘侧提供云服务和IT环境服务边缘计算的目标是在靠近数据输入或用户的地方提供计算存储和网络带宽边缘计算是一种分散式运算的架构在这种架构下将应用程序数据资料与服务的运算
R语言之词云：wordcloud&wordcloud2安装及参数说明

一 wordcloud安装说明 install packages wordcloud 二 wordcloud2安装说明 install packages devtools devtools install github lchiffon w
心电信号越界怎么回事_心电图机的干扰及其正确处理方法

心电图机是记录人体体表各点随时间而变化的心电波形的医疗仪器医生根据心电图机所记录的波形的形态波幅大小以及各波之间的相对时间关系来鉴别诊断心脏疾病因此心电图机所记录的心电图的精确度对于心脏疾病的鉴别诊断至关重要但是由于心电信号比较
JAVA面试常考

1 自我介绍讲下最有难度的项目 2 对线程安全的理解 3 比如有一个局部变量i 1 两个线程同时执行是否线程安全 4 比如再有一个共享变量如何保证线程安全 5 说说ThreadLocal 底层如何实现 6 hashmap实现原理 7
【BATCHNORMALIZATION、LAYERNORMALIZATION、INSTANCENORMALIZATION和GROUPNORMALIZATION】

总览神经网络中有各种归一化算法 Batch Normalization BN Layer Normalization LN Instance Normalization IN Group Normalization GN 从公式看它们都差
ServerSocket 的建立与使用（多线程）

1 main方法 package peixun public class MyServerSocket public static void main String args new ServerListener start 2 建立连接
多元线性回归的梯度下降

目录 1 线性回归的基本概念 2 线性回归算法 3 多元梯度下降算法 4 总结 1 线性回归的基本概念在回归分析中如果只包含一个自变量和一个因变量且二者关心可近似用一条直线表示则称该回归分析为一元线性回归分析如果包含两个及两个以上
多模态（图像和文本跨模态）分类

文章目录前言一数据集介绍二处理过程 1 处理图片文本标签数据 1 将label由消极中立积极的标签变成数字 0 1 2 并且将其保存在path2label字典中 2 分别将图像文件和文本文件形成列表 3 分别将文本内容对应的
计算机插本2a院校,广东省专插本2A院校有哪些

满意答案 yandianhua 2012 12 23 采纳率 45 等级 12 已帮助 15307人晨光英语考试团很荣幸为您解答 2011年广东省本科插班生招生院校名单院校代码院校名称以下院校是2A线的 533 深圳大学 534 五
刷题之455. 分发饼干 -----贪心初试

假设你是一位很棒的家长想要给你的孩子们一些小饼干但是每个孩子最多只能给一块饼干对每个孩子 i 都有一个胃口值 g i 这是能让孩子们满足胃口的饼干的最小尺寸并且每块饼干 j 都有一个尺寸 s j 如果 s j gt g i 我们可
性能测试浅谈

早期的性能测试更关注后端服务的处理能力一个用户去访问一个页面的请求过程如上图数据传输时间当你从浏览器输入网址敲下回车开始真实的用户场景请不要忽视数据传输时间想想你给远方的朋友写信信件需要经过不同的交通运输工具送到朋友手上
去除移动端h5的横向滚动条

我的问题是在移动端第一次访问h5页面时页面尺寸被放大了一点没有手机适配所以出现了横向滚动条手指缩小页面尺寸后横向滚动条才消失解决方案在入口页面index html的标签里添加下面一行代码
Qt中的中信号槽与异步调用

Qt中使用信号槽机制处理跨对象之间的调用该机制的好处有 1 使得调用关系的绑定和解除十分灵活不必修改类成员函数代码 2 在不暴露更多全局变量的情况下实现跨命名空间调用 3 可以多个信号对应多个槽也可以信号之间绑定对应于GUI中的逻
python 使用for循环简单爬取图片（1）

现在的网站大多做了反爬处理找一个能爬的网站还真不容易下面开始一步步实现 1 简单爬录目图片 1 import urllib request 2 import re 3 4 def gethtml url 5 page urllib re

python 使用for循环简单爬取图片（1）

python 使用for循环简单爬取图片（1） 的相关文章

随机推荐

热门标签

python 使用for循环简单爬取图片（1）的相关文章