Python抓取糗事百科成人版图片

2023-05-16

最近开始学习爬虫，一开始看的是静觅的爬虫系列文章，今天看到糗事百科成人版，心里就邪恶了一下，把图片都爬下来吧，哈哈~

虽然后来实现了，但还是存在一些问题，暂且不提，先切入正题吧，没什么好说的，直接上代码如下：

环境：Python2.79


 1 #coding: utf-8
 2 import urllib2
 3 import urllib
 4 import re
 5 import os
 6 
 7 #糗百成人版抓取图片
 8 class QBAdult:
 9 
10     #类初始化
11     def __init__(self):
12         self.baseURL = "http://www.qiubaichengnian.com/"
13     #获取索引页面内容
14     def getPage(self, pageIndex):
15         url = self.baseURL + "index_" + str(pageIndex) + ".html"
16         req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
17                         'Accept':'text/html;q=0.9,*/*;q=0.8',
18                         'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
19                         'Accept-Encoding':'gzip',
20                         'Connection':'close',
21                         'Referer':None #注意如果依然不能抓取的话，这里可以设置抓取网站的host
22                     }
23         req_timeout = 5
24         request = urllib2.Request(url, None, req_header)
25         reponse = urllib2.urlopen(request, None, req_timeout)
26         #print reponse.read().decode('gbk')
27         return reponse.read().decode('gbk')
28 
29     #获取页面所有条目信息，list格式
30     def getContents(self, pageIndex):
31         page = self.getPage(pageIndex)
32         pattern = re.compile('div class="ui-module".*?<a href=.*?>(.*?)</a>.*?<img.*?src="(.*?)"', re.S)
33         items = re.findall(pattern, page)
34         #for item in items:
35             #print item[0], item[1]
36         return items
37 
38 
39     #获取页面所有图片
40     def getAllImgs(self, items):
41 
42         images = []
43         for item in items:
44             images.append(item[1])
45         return images
46 
47 
48     #保存多张图片
49     def saveAllImg(self, images, n, name):
50         number = 1
51         print u"--------------正在保存第", n , u"页美女图片-------------"
52         for imageURL in images:
53             splitPath = imageURL.split('.')
54             fTail = splitPath.pop()
55             fileName = name + "/" + str(n) + "-" + str(number) + "." + fTail
56             self.saveImg(imageURL, fileName)
57             number += 1
58 
59 
60     #传入图片地址，文件名，保存单张图片
61     def saveImg(self, imageURL, fileName):
62         u = urllib.urlopen(imageURL)
63         data = u.read()
64         f = open(fileName, 'wb')
65         f.write(data)
66         print u"正在保存美女图片", fileName
67         f.close()
68 
69     #创建新目录
70     def mkdir(self, path):
71         path = path.strip()
72         #判断是否存在
73         isExists = os.path.exists(path)
74         if not isExists:
75             print u"新建名字为", path, u"的文件夹"
76             os.makedirs(path)
77             return True
78         else:
79             #如果目录存在则不创建，并提示目录已存在
80             print u"名为", path, u"的文件夹已经创建成功"
81             return False
82 
83 
84     def savePageInfos(self, start, end):
85         fileName = "beautifull"
86         #获取一页内容,存入beautifull文件夹
87         self.mkdir(fileName)
88         for i in range(start, end+1):
89             print u"正在保存第", i, "页的美女图片"
90             contents = self.getContents(i)
91             images = self.getAllImgs(contents)
92             self.saveAllImg(images, i, fileName)
93 
94 
95 qAdult = QBAdult()
96 qAdult.savePageInfos(1, 301)

其中16-23行的代码是后来出现IOERROR以及超时等错误后加上的，但是这种方法只是治标不治本，时不时程序还会停止，错误如下：

小规模抓取图片，几百页抓取会出现如上问题，我还没有找到什么原因。。。。

转载于:https://www.cnblogs.com/nju2014/p/4451674.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

抓取糗事百科成人版图片

Python抓取糗事百科成人版图片的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

给Hexo搭建的博客绑定域名

前言前几天利用闲置时间 xff0c 利用hexo在GitHub上搭建了一个静态博客 xff0c 那么既然是个人博客 xff0c 当然要上自己的域名了 step 1 首先你得你得搭建 XXX github io 这样的博客 xff0c he
chrome浏览器提取网页视频

http blog csdn net pipisorry article details 37728839 在我们平时上网看视频听音乐时都会产生缓存 xff0c 可是我们非常难通过一些软件把当中的视频和音乐文件提取出来网页抓取视频的方法
js 统计一个字符串中，出现最多的字符和出现次数

运用到的关键函数是str charAt index xff1a 根据位置返回字符另外 xff0c 建立一个对象o xff0c 其中存放的key为字符串的各不重复的字母 xff0c 键值为出现的次数代码 xff1a span class
IdentityServer4 配置负载均衡

如果使用 IdentityServer4 做授权服务的负载均衡 xff0c 默认情况下是不可以的 xff0c 比如有两个授权服务站点 xff0c 一个资源服务绑定其中一个授权服务 xff08 Authority配置 xff09 xff0c
android 打开串口log,user版本如何打开uart，让android log从串口kernel log输出

数据流控制是否正确 xff0c 一般需关闭 xff0c 下面为RS232的三种流控制模式介绍 xff1a DTR DSR xff1a 硬件上要有对应接口 xff0c 软件上实现对应协议 xff0c 才能实现此流控制具体实现起来 xff0c
安装flashplugin提示依赖libgdk-pixbuf2.0-0

为什么80 的码农都做不了架构师 xff1f gt gt gt 今天安装flashplugin 出现问题 xff0c sudo apt get install adobe flashplugin 结果提示 xff1a 下列软件包有未满足的依
Python新手入门教程，从环境准备到掌握基本编程

Lesson 1 准备好学习Python的环境下载的地址是 xff1a www python org 为了咱们的便当 xff0c 我在校内作了copy xff1a http 10 1 204 2 tool compiler amp IDE
mariadb使用C语言编程,MHA实现mariadb的高可用的详细步骤及配置参数详解

MHA实现mariadb的高可用的详细步骤及配置参数详解 A 实验环境说明 a 4台centos7主机 b 角色说明 xff1a a MHA xff1a 192 168 36 35 b Master mariadb xff1a 192 16
c语言中sizeof函数的作用是,c语言中sizeof函数的用法

C语言sizeof函数如何使用 xff1f 怎样利用sizeofCSS布局HTML小编今天和大家分享各种数据类型占用的字节数 xff1f 1 sizeof不是函数 xff0c 它只是一个操作符 operator 2 sizeof的作用是返回
AutoCAD快捷键大全

送给学习AutoCAD的朋友 xff0c 最后一张图片是可以打印的键盘标签 xff0c 可以打印出来贴在键盘上方便记住 xff01 如果感觉模糊的话 xff0c 可以单击文章图片进行查看 xff01
如何恢复U盘里的删除文件？

对于经常使用到U盘的用户来说 xff0c 误删U盘内重要数据的情况经常发生 xff0c U盘内重要的资料从电脑上被删除后 xff0c 不经过回收站 xff0c 我们很难从回收站中还原数据那么 xff0c 如何恢复u盘删除文件 xff1f
maven maven.compiler.source和maven.compiler.target的坑

最近建议产品组把jdk 1 7升级到1 8 xff0c 昨晚开发报了个问题过来 xff0c 说maven compiler source和maven compiler target改成1 8之后 xff0c 编译出来的代码还是1 7 xff
1‘b0 什么意思

在看datasheet 中有类似表达式如下 xff1a 3 39 b000 1 39 b1 1 39 b0 3 39 b000这个表示 xff1a b代表二進制 3代表位元數 1 39 b1 xff1a 宣告為一位元二進制之值為1 xff0
css 识别软件测出来的尺寸和代码设置的不一样

这是我在模仿网页时遇到的问题 xff0c 困扰了一会儿 xff0c 情况是这样的我下载了参考的网页html文件 xff0c 为了测量某个box的高度 xff0c 用了一款可以截图识别的软件 xff1a 量出来的box高度是30px xff
SpringBoot中注入ApplicationContext对象的三种方式

在项目中 xff0c 我们可能需要手动获取spring中的bean对象 xff0c 这时就需要通过 ApplicationContext 去操作一波了 xff01 1 直接注入 xff08 Autowired xff09 span clas
vue中$attrs你会用吗？

这篇文章的知识点是父子组件通讯 xff0c 如果你了解 props 但是还没了解过 attrs xff0c 那么建议你花1分钟时间阅读 xff0c 了解它的优点 xff0c 并学会在项目中使用关于 attrs的介绍包含了父作用域中不作为
企业微信三方应用开发（二）授权开通及登录流程

何谓企业微信第三方应用一句话简介一个S商场企业微信里入驻了D商站 xff08 服务商 xff09 在卖他的C产品 xff08 三方应用 xff09 三句话路径我们申请成为企业微信服务商 xff0c 入驻到企业微信然后经过应用开
PHP+AJAX实现账号注册和登陆，附可用demo

前言登陆和注册已经是网站的标配了 xff0c 所以这是我们web开发学习过程中必学的了其实很容易实现 xff0c 只需要懂数据库的增删改查 xff0c 还有if else的条件语句即可做出来目录 css Login Reg css s
ftp服务器无法使用浏览器访问解决方法

浏览器默认工作在被动模式可能你的环境无法让ftp服务器工作在主动模式这个很容易测试你在IE浏览器的工具 internet选项高级中取消使用被动ftp的设置 xff0c 看看浏览器是否还可以访问ftp服务器 xff0c 如果访问不了
Python抓取糗事百科成人版图片

最近开始学习爬虫 xff0c 一开始看的是静觅的爬虫系列文章 xff0c 今天看到糗事百科成人版 xff0c 心里就邪恶了一下 xff0c 把图片都爬下来吧 xff0c 哈哈虽然后来实现了 xff0c 但还是存在一些问题 xff0c 暂

Python抓取糗事百科成人版图片

Python抓取糗事百科成人版图片 的相关文章

随机推荐

热门标签

Python抓取糗事百科成人版图片的相关文章