Python抓取网页图片

2023-05-16

网上的代码基本上都是python2,这里的代码使用的是python3注意没有urllib2这个库了。

要先做几个个准备工作:

①找到有图片的网站

②指定电脑保存路径

③利用浏览器工具查看网页代码中图片的保存路径(非常重要,如果错误可能抓取不到)

下面给出代码:

注意看注释

import re
import urllib.request  # Python2中使用的是urllib2
import urllib
import os


def getHtml(url):
    '获取网站地址'
    page = urllib.request.urlopen(url)
    html = page.read()

    return html.decode('UTF-8')


def getImg(html):
    '图片地址注意要从浏览器中查看网页源代码找出图片路径'
    # 要加括号,作为元组返回
    #reg = r'src="(.+?\.jpg)" pic_ext'  # 某个贴吧的图片
    reg = r'data-progressive="(.+?\.jpg)" '  # Bing壁纸合集抓取地址
    # reg = r'src="(.+?\.jpg)" '  # 我的网站图片地址
    # reg = r'zoomfile="(.+?\.jpg)" '  # 威锋网手机壁纸
    imgre = re.compile(reg)
    imglist = imgre.findall(html)
    x = 0
    path = 'E:\\Temporary\\new'     # 输入保存文件的目录地址
    if not os.path.isdir(path):
        os.makedirs(path)   # 检查是否存在地址,如果不存在将自动创建文件夹目录
    paths = path + '\\'  # 保存在test路径下
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl, '{}{}.jpg'.format(paths, x))
        x = x + 1


if __name__ == '__main__':
   # html = getHtml("http://bbs.feng.com/read-htm-tid-10616371.html")  # 威锋网手机壁纸
   # html = getHtml("http://www.omegaxyz.com/")  # 我的网站图片地址
    html = getHtml("https://bing.ioliu.cn/ranking")  # Bing壁纸合集抓取地址
   # html = getHtml("http://tieba.baidu.com/p/2460150866")  # 某个贴吧的图片
    getImg(html)

注意以上代码在pycharm python3.6.2环境运行

效果截图:
这里写图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python抓取网页图片 的相关文章

随机推荐

  • 数据结构串的基本操作及KMP算法

    将串的基本操作C语言实现 xff0c 实现KMP算法算出NEXT函数和NEXTVAL的值 SqString h的基本内容 span class hljs keyword typedef span span class hljs keywor
  • JAVA经典面试题(来源于互联网)

    面向对象编程 xff08 OOP xff09 Java是一个支持并发 基于类和面向对象的计算机编程语言 下面列出了面向对象软件开发的优点 xff1a 代码开发模块化 xff0c 更易维护和修改 代码复用 增强代码的可靠性和灵活性 增加代码的
  • 规则绝对公平时,社会财富的流向谁?

    从知乎有一个很有趣的问题 xff1a 房间里有100个人 xff0c 每人都有100元钱 xff0c 如果每过一分钟 xff0c 每个人都要拿出一元钱随机给另一个人 xff0c 最后这100个人的财富分布是怎样的 xff1f 这个问题 xf
  • 2017程序员综合素质调研测试

    只要志愿选得好 xff0c 年年期末是高考 高等数学 线性代数 C语言 计算机导论 数据结构 离散数学 电子技术 C 43 43 程序设计 汇编语言程序设计 计算机组成原理 编译原理 操作系统 数据库原理 JAVA程序设计 Python 下
  • 机器学习非平衡数据集概述

    定义 xff1a 不平衡数据集 xff1a 在分类等问题中 xff0c 正负样本 xff0c 或者各个类别的样本数目不一致 研究不平衡类通常认为不平衡意味着少数类只占比10 20 实际上 xff0c 一些数据集远比这更不平衡 例如 xff1
  • 汇编语言32位加减乘除运算题

    用16位指令编制程序 xff0c 处理32位的加减乘除算术四则运算题 本文计算 xff08 3 X 43 Y Z xff09 5的值 值分别为 xff1a span class hljs built in x span dw span cl
  • 汇编语言字符串比较与查找

    答案仅供参考 xff0c 大家还是自己写比较好 汇编语言实现 用字符串处理指令编制程序 xff0c 处理字符串的比较和查找 xff0c 显示结果 要求 xff1a xff08 1 xff09 字符串的比较函数中 xff0c 一个字符串在数据
  • 汇编语言数据段查找ASCII码并回显

    实验要求 xff1a 在数据段预先存放16个十六进制的ASCII码 xff0c 首地址为ASC 从键盘输入一位十六进制数到BX xff0c 用ASC BX xff08 寄存器相对寻址 xff09 寻址方式找到对应数位的ASCII码 xff0
  • 汇编语言将正负数复制到不同的数组

    分离字数组ARRAY中的正 xff0c 负数 xff0c 把其中的正数复制到PDATA数组 xff1a 负数复制到NDATA数组 xff0c 并分别统计正 负数个数 DATAS SEGMENT array dw span class hlj
  • JAVA工程师最新面试题(来源于互联网)

    面向对象编程 xff08 OOP xff09 Java是一个支持并发 基于类和面向对象的计算机编程语言 下面列出了面向对象软件开发的优点 xff1a 代码开发模块化 xff0c 更易维护和修改 代码复用 增强代码的可靠性和灵活性 增加代码的
  • 关于内存溢出异常的查看以及解决办法

    内存溢出 又称为OOM OutOfMemoryError 处理内存溢出 首先要查看是否是由于内存泄露 Memory Leak 造成的内存溢出 Memory Overflow 可以使用内存影响分析工具 如 Eclipse Memory Ana
  • JAVA基本程序设计规范

    1 标识符是程序中用于命名诸如变量 常量 方法 类 包之类元素的名称 2 标识符是由字母 数字 下划线 和美元符号 构成的字符序列 标识符必须以字母或下划 开头 xff0c 不能以数字开头 标识符不能是保留字 标识符可以为任意长度 3 变量
  • 多目标优化问题概述

    图片不清楚请看多目标问题详解 xff1a 多目标问题详解 更多内容访问omegaxyz com 定义 xff1a 若干冲突或相互影响条件约束下在给定区域内寻找尽可能的最优解 xff08 非劣解 xff09 关键词 xff1a 条件约束 xf
  • NSGA2算法中文版详细介绍

    NSGA2主要是对NSGA算法的改进 NSGA是N Srinivas 和 K Deb在1995年发表的一篇名为 Multiobjective function optimization using nondominated sorting
  • 特征选择算法综述

    特征选择 xff08 feature selection xff09 作为一种常见的降维方法是模式识别的研究热点之一 它是指从原始特征集中选择使某种评估标准最优的特征子集 其目的是使选出的最优特征子集所构建的分类或回归模型达到和特征选择前近
  • 多目标优化详解【转载】

    欢迎大家访问我的网站发现更多内容omegaxyz com 多目标优化问题详解 生活中 许多问题都是由相互冲突和影响的多个目标组成 人们会经常遇到使多个目标在给定区域同时尽可能最佳的优化问题 也就是多目标优化问题 优化问题存在的优化目标超过一
  • Python 编写规范

    用IDE写Python编写时有时会有标记 xff0c 但是程序能正常运行 xff0c 这里的标记是python编写不规范 xff0c 下面给出一些规范写法 一行列数 PEP 8 规定为 79 列 xff0c 这个太苛刻了 xff0c 如果要
  • Python求解排列中的逆序数个数

    在一个排列中 xff0c 如果一对数的前后位置与大小顺序相反 xff0c 即前面的数大于后面的数 xff0c 那么它们就称为一个逆序 一个排列中逆序的总数就称为这个排列的逆序数 一个排列中所有逆序总数叫做这个排列的逆序数 也就是说 xff0
  • Python利用shelve模块设计简单数据库程序

    欢迎访问我的网站omegaxyz com 利用shelve模块写数据库文件在程序关闭时仍然能存储之前的数据 将所有内容都放到函数中会让程序更加结构化 主程序放在main函数中 xff0c 只有在if name 61 61 main 条件成立
  • Python抓取网页图片

    网上的代码基本上都是python2 xff0c 这里的代码使用的是python3注意没有urllib2这个库了 要先做几个个准备工作 xff1a 找到有图片的网站 指定电脑保存路径 利用浏览器工具查看网页代码中图片的保存路径 xff08 非