Scrapy框架下载器和随机请求头

2023-05-16

下载器中间键可以为我们设置多个代理ip与请求头，达到反反爬虫的目的

下面是scrapy为我们创建好的中间件的类

Process_request(self,request,spider)
参数

request:发送请求的request对象

spider:发送请求的spider对象

此方法若返回None，Scrapy将继续处理此Request，直到其他下载器中间件被调用

此方法若返回Response对象：不再返回下载器，直接返回给引擎

返回Request对象：使用现在返回的Request

图解

Process_response(self,request,response,spider):
参数
request: request对象

response:被处理的response对象

返回值
返回response对象：会将这个对象按序传给其他中间件，最终经过引擎给到爬虫

返回request对象：下载器链接切断，返回的request重新被下载器调度，最终经过引擎给到爬虫

返回request对象：下载器链接切断，返回的request重新被下载器调度

中间件应用

Scrapy设置随机请求头
基本介绍
设置随机请求头是应对反爬虫的一种手段，如果某个相同的请求头对目标网站频繁进行访问，可能会被封禁。
故此我们在爬虫的时候最好随机更改我们的请求头，我将在Scrapy的下载器中间件上进行随机更改请求头

常见备选请求头User-Agent

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1
 
Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0
 
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50

Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50
 
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)
 
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)
 
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB7.0)
 
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
 
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)
 
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)
 
Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.33 Safari/534.3 SE 2.X MetaSr 1.0
 
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)
 
Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201

Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E) QQBrowser/6.9.11079.201
 
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)

编写下载器中间件
我们选择重写我们的下载器中间件类，在middlewares.py中添加如下代码

class RandomUserAgentMiddleWare(object): 
    USER_AGENT_LIST = [   
        "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0",                 "Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50"
        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"    ] 
    def process_request(self,request,spider):  
        user_agent = random.choice(self.USER_AGENT_LIST)  
        request.heardes['User-Agent'] = user_agent

在setting.py中找到这段注释，并将蓝色部分换成我们刚写好的类

再去运行我们的爬虫，爬虫就会生成随机请求头去访问我们的目标网站

————————————————
参考链接下载器：https://blog.csdn.net/JunSIrhl/article/details/102577470 ：https://blog.csdn.net/JunSIrhl/article/details/102577470

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy

框架下载器和随机请求头

Scrapy框架下载器和随机请求头的相关文章

将 Tor 代理与 scrapy 一起使用

我需要帮助在 Ubuntu 中设置 Tor 并在 scrapy 框架中使用它我做了一些研究并找到了这个指南 class RetryChangeProxyMiddleware RetryMiddleware def retry self r
使用 Scrapy (Python) 抓取网络数据（在线新闻评论）

我想从在线新闻中抓取网络评论数据纯粹用于研究我注意到我必须学习 Scrapy 通常我使用 Python 进行编程我想这很容易学但我遇到了一些问题我想抓取新闻评论http news yahoo com congress wary b
Scrapy蜘蛛抓取页面和抓取项目之间的区别

我正在编写一个 Scrapy CrawlSpider 它读取第一页上的 AD 列表获取一些信息例如列表和 AD url 的缩略图然后向每个 AD url 发出请求以获取其详细信息它在测试环境中工作和分页显然很好但今天试图进行完整的
Scrapy - 抓取时发现的抓取链接

我只能假设这是 Scrapy 中最基本的事情之一但我就是不知道如何去做基本上我会抓取一页来获取包含本周更新的网址列表然后我需要一一进入这些网址并从中获取信息我目前已经设置了两个刮刀并且它们可以完美地手动工作因此我首先从第一个
好斗的。开始爬行后如何更改蜘蛛设置？

我无法更改解析方法中的蜘蛛设置但这绝对是一个办法例如 class SomeSpider BaseSpider name mySpider allowed domains example com start urls http examp
Scrapy Python Craigslist Scraper

我正在尝试使用 Craigslist 分类广告Scrapy提取待售物品我能够提取日期帖子标题和帖子 URL但提取时遇到问题price 由于某种原因当前代码提取all的价格但是当我删除在价格范围之前查找价格字段返回为空有人可以查看
使用 selenium 登录 stackoverflow 可以正常工作，但使用 scrapy python 则不行。如何使用无头浏览登录？

我一直在尝试自动登录 stackoverflow 来学习网络抓取首先我尝试了 scrapy 但使用下面的代码我并没有那么幸运 import scrapy from scrapy utils response import open in
scrapy中如何处理302重定向

我在抓取网站时收到来自服务器的 302 响应 2014 04 01 21 31 51 0200 ahrefs h DEBUG Redirecting 302 to
设置restrict_xpaths设置后出现UnicodeEncodeError

我是 python 和 scrapy 的新手将restrict xpaths 设置设置为 table class lista 后我收到了以下回溯奇怪的是通过使用其他 xpath 规则爬虫可以正常工作 Traceback most
在 scrapy 中将基本 url 与结果 href 结合起来

下面是我的蜘蛛代码 class Blurb2Spider BaseSpider name blurb2 allowed domains www domain com def start requests self yield self ma
Scrapy：在调用之间保存cookie

有没有办法在 scrapy 爬虫的调用之间保留 cookie 目的网站需要登录然后通过 cookie 维持会话我宁愿重复使用会话也不愿每次都重新登录请参阅有关 cookie 的文档常见问题解答入口 http doc scrapy
如何从网站中抓取动态内容？

所以我使用 scrapy 从亚马逊图书部分抓取数据但不知何故我知道它有一些动态数据我想知道如何从网站中提取动态数据到目前为止我已经尝试过以下方法 import scrapy from items import AmazonsItem
即使收到 200 状态代码也重试 Scrapy 请求

我正在抓取一个网站有时会返回 200 但在 response body 中没有任何文本当我尝试使用 Selector 解析它时会引发 AttributeError 是否有一种简单的方法来检查以确保正文包含文本如果没有则重试请求直到
运行Scrapy的Django自定义管理命令：如何包含Scrapy的选项？

我希望能够运行Scrapy网络爬虫框架 http scrapy org 来自 Django 内部 Scrapy本身只提供了一个命令行工具scrapy执行其命令即该工具不是故意编写为从外部程序调用的用户米哈伊尔科罗博夫 https st
如何添加剧作家的等待时间

我正在将 scrapy 与 playwright 集成但发现自己在单击后添加计时器时遇到困难因此当我点击后截取页面的屏幕截图时它仍然挂在登录页面上如何集成计时器以便页面等待几秒钟直到页面加载选择器 onetrust close
AttributeError：“模块”对象没有属性“Spider”

我刚刚开始学习scrapy 所以我遵循scrapy文档 http doc scrapy org en latest intro tutorial html 我刚刚编写了该网站中提到的第一个蜘蛛 import scrapy class Dmo
Scrapy - 持续从数据库中获取要爬取的url

我想不断地从数据库中获取要爬行的网址到目前为止我成功地从基地获取了 url 但我希望我的蜘蛛继续从该基地读取因为该表将由另一个线程填充我有一个管道一旦爬行工作就会从表中删除 url 换句话说我想使用我的数据库作为队列我尝试
Scrapy - 如何抓取网站并将数据存储在 Microsoft SQL Server 数据库中？

我正在尝试从我们公司创建的网站中提取内容我在 MSSQL Server 中为 Scrapy 数据创建了一个表我还设置了 Scrapy 并配置了 Python 来抓取和提取网页数据我的问题是如何将Scrapy爬取的数据导出到我本地的M
InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec

随机推荐

爬虫之数据存储（json,csv,mysql)等

JSON支持数据格式 xff1a 对象 xff08 字典 xff09 使用花括号数组 xff08 列表 xff09 使用方括号整形浮点型布尔类型还有null类型字符串类型 xff08 字符串必须要用双引号 xff0c 不能用单引号
MongoDB的安装及配置服务及使用

安装配置 https blog csdn net heshushun article details 77776706 1 先在安装目录data文件下创建一个新文件夹log xff08 用来存放日志文件 xff09 2 在Mongodb安装
python多线程学习

Python3 线程中常用的两个模块为 xff1a thread xff08 已经废弃 xff09 threading 推荐使用线程模块 Python3 通过两个标准库 thread 和 threading 提供对线程的支持 thread
爬虫实战之多线程下载表情包

一般下载 import requests from lxml import etree import os import re from urllib request import urlretrieve headers 61 39 Use
卷积padding,kernel_initializer

TensorFlow和 keras layers convolutional Conv1D和tf layers Conv1D函数 keras layers convolutional Conv1D filters kernel size s
python刷题之链表常见操作

链表常用操作也可以把列表当做队列用 xff0c 只是在队列里第一加入的元素 xff0c 第一个取出来 xff1b 但是拿列表用作这样的目的效率不高在列表的最后添加或者弹出元素速度快 xff0c 然而在列表里插入或者从头部弹出速度却不快
刷题之链表

链表相关 19 删除链表的倒数第 N 个结点难度中等1261收藏分享切换为英文接收动态反馈给你一个链表 xff0c 删除链表的倒数第 n 个结点 xff0c 并且返回链表的头结点进阶 xff1a 你能尝试使用一趟扫描实现吗 xff1f
高级爬虫: 使用 Selenium 浏览器

安装Selenium和chromedriver xff1a 因为 Selenium 需要操控你的浏览器所以安装起来比传统的 Python 模块要多几步先在 terminal 或者 cmd 用 pip 安装 selenium python
python刷题之栈和队列

20 有效的括号难度简单2228 给定一个只包括 39 39 xff0c 39 39 xff0c 39 39 xff0c 39 39 xff0c 39 39 xff0c 39 39 的字符串 s xff0c 判断字符串是否有效有效字符串
python实现堆的基本操作及堆相关练习

堆 heap 又被为优先队列 priority queue 尽管名为优先队列 xff0c 但堆并不是队列回忆一下 xff0c 在队列中 xff0c 我们可以进行的限定操作是dequeue和enqueue dequeue是按照进入队列的先后
python刷题之集合、哈希表常见操作及练习

集合集合是一个无序不重复元素的集基本功能包括关系测试和消除重复元素可以用大括号创建集合注意 xff1a 如果要创建一个空集合 xff0c 你必须用 set 而不是 xff1b 后者创建一个空的字典 xff0c 下一节我们会介绍这个
用selenium爬取拉勾网职位信息及常见问题处理

初步爬虫框架构造下面采用selenium进行爬虫 xff0c 首先构造一下爬虫的框架 xff0c 将整个程序构造为一个类 xff0c 其中主要包括 xff1a 获取每个详细职位信息的链接 xff08 parse page url xff0
Scrapy爬虫快速入门

Scrapy快速入门 Scrapy框架模块功能 xff1a Scrapy Engine xff08 引擎 xff09 xff1a Scrapy框架的核心部分负责在Spider和ItemPipeline Downloader Schedul
嵌入式系统USB CDROM虚拟光驱驱动程序开发

带U盘功能的的USB接口设备已经越来越常见了如果能够把产品说明书或者产品设备驱动程序做成一个USB CDROM xff0c 那该多方便假设 xff1a 你已经有了USB mass storage驱动你的任务是在此基础上增加一个USB
Redis集群原理详解

一 Redis集群介绍 xff1a 1 为什么需要Redis集群 xff1f 在讲Redis集群架构之前 xff0c 我们先简单讲下Redis单实例的架构 xff0c 从最开始的一主N从 xff0c 到读写分离 xff0c 再到Sentin
python刷题之快慢指针与二分查找

141 环形链表难度简单986 给定一个链表 xff0c 判断链表中是否有环如果链表中有某个节点 xff0c 可以通过连续跟踪 next 指针再次到达 xff0c 则链表中存在环为了表示给定链表中的环 xff0c 我们使用整数 pos
LeetCode每日一题

191 位1的个数难度简单290 编写一个函数 xff0c 输入是一个无符号整数 xff08 以二进制串的形式 xff09 xff0c 返回其二进制表达式中数字位数为 39 1 39 的个数 xff08 也被称为汉明重量 xff09 提示
scrapy模拟豆瓣登录

看的课程是21天搞定分布式爬虫 xff0c 应该是几年前的了 xff0c 课程当时还是验证码 xff0c 现在登录和之前都不一样了现在需要你拖动滑块完成拼图之前的页面现在验证码都变成拼图了学学原理吧首先创建scrapy项目首先进入
利用Scrapy框架爬取汽车之家图片（详细）

爬取结果爬取步骤创建爬虫文件进入cmd命令模式下 xff0c 进入想要存取爬虫代码的文件 xff0c 我这里是进入e盘下的E pystudy scraping文件夹内 C Users wei gt E E gt cd E pystud
Scrapy框架下载器和随机请求头

下载器中间键可以为我们设置多个代理ip与请求头 xff0c 达到反反爬虫的目的下面是scrapy为我们创建好的中间件的类 Process request self request spider 参数 request 发送请求的reques

Scrapy框架下载器和随机请求头

中间件应用

Scrapy框架下载器和随机请求头 的相关文章

随机推荐

热门标签

Scrapy框架下载器和随机请求头的相关文章