Python爬虫教程28：聊聊反爬爬虫经常遇到的问题及解决方法

2023-12-04

反爬的三个方向 ：1.基于 身份识别 进行反爬，2.基于 爬虫行为 进行反爬，3.基于 数据加密 进行反爬。

1.常见基于身份识别进行反爬

1.1通过headers字段来反爬：headers中有很多字段，这些字段都有可能会被对方服务器拿过来判断是否为爬虫

1.1 通过headers中的 user-agent字段 进行反爬

反爬原理：爬虫默认情况下没有user-agent，而是使用模块默认设置。

解决方法：请求之前添加user-agent即可；更好的方式是使用user-agent池来解决（收集一堆user-agent或者随机生成user-agent）

1.2 通过 referer字段 或者是其他字段来反爬

反爬原理：爬虫默认情况下不会带上referer字段，服务器通过判断请求发起的源头，以此判断请求是否合法。

解决方法：添加referer字段

1.3 通过 cookie 来反爬

反爬原因：通过检查cookies来查看发起请求的用户是否具备相应权限，以此来进行反爬。

解决方案：进行模拟登录，成功获取cookies之后再进行数据爬取

2. 通过请求参数来反爬： 请求参数的获取方法有很多，向服务器发送请求，很多时候需要携带请求参数，通常服务器端可以通过检查请求参数是否正确来判断是否为爬虫。

2.1 通过从html静态文件中获取请求数据

反爬原因：通过增加获取请求参数的难度进行反爬

解决方案：仔细分析抓包得到的每一个包，搞清楚请求之间的联系

2.2 通过发送请求获取请求数据

反爬原因：通过增加获取请求参数的难度进行反爬

解决方案：仔细分析抓包得到的每一个包，搞清楚请求之间的联系，搞清楚请求参数的来源

2.3 通过js生成请求参数

反爬原理：js生成了请求参数

解决方法：分析js，观察加密的实现过程，通过js2py获取js的执行结果，或者使用selenium来实现

2.4 通过验证码来反爬

反爬原理：对方服务器通过弹出验证码强制验证用户浏览行为

解决方法：打码平台或者是机器学习的方法识别验证码，其中打码平台廉价易用，更值得推荐

3.常见基于 ‘ 爬虫行为 ’进行反爬

3.1 基于请求频率或总请求数量

爬虫的行为与普通用户有着明显的区别，爬虫的请求频率与请求次数要远高于普通用户。

3.1.1 通过请求ip/账号单位时间内总请求数量进行反爬

反爬原理：正常浏览器请求网络，速度不会太快，同一个ip/账号大量请求了对方服务器，有更大的可能性会被识别为爬虫

解决方法：对应的通过购买高质量的ip的方式能够解决问题/购买多个账号

import requestsurl = "https://baidu.com"# 设置代理 IP 地址proxies = {  "http": "http://代理IP:端口",  "https": "http://代理IP:端口",}# 注意 proxies 参数response = requests.get(url, proxies=proxies)print(response.text)

3.1.2 通过同一ip/账号请求之间的间隔进行反爬

反爬原理：正常人操作浏览器浏览网站，请求之间的时间间隔是随机的，而爬虫前后两个请求之间间隔通常比较固定同时时间间隔较短，因此可用来反爬

解决方法：请求之间进行随机等待，模拟真实用户操作，在添加时间间隔后，为了能够高速获取数据，尽量使用代理池，如果是账号，则将账号请求之间设置随机休眠

3.1.3 通过对请求ip/账号每天请求次数设置阈值进行反爬

反爬原理：正常的浏览行为，其一天的请求次数是有限的，通常超过某一个值，服务器就会拒绝响应

解决方法：对应的通过购买高质量的ip/多账号的方法，同时设置请求间随机休眠

3.2 根据爬虫行为进行反爬，通常在爬取步骤上做分析

3.2.1 通过js实现跳转来反爬

反爬原理：js实现页面跳转，无法在源码中获取下一页url

解决方法：多次抓包获取条状url，分析规律

3.2.2 通过蜜罐（陷阱）获取爬虫ip（或代理ip），进行反爬

反爬原理：在爬虫获取链接进行请求的过程中，爬虫会根据正则，xpath，css等方式进行后续链接的提取，此时服务器端可以设置一个陷阱url，会被提取规则获取，但是正常用户无法获取，这样就能有效的区分爬虫和正常用户

解决方法：完成爬虫的编写之后，使用代理批量爬取测试/仔细分析响应内容结构，找出页面中存在的陷阱

3.2.3 通过假数据反爬

反爬原理：向返回的响应中添加假数据污染数据库，通常假数据不会被正常用户看到

解决方法：长期运行，核对数据库中数据同实际页面中数据对应情况，如果存在问题/仔细分析响应内容

3.2.4 阻塞任务队列

反爬原理：通过生成大量垃圾url，从而阻塞任务队列，降低爬虫的实际工作效率

解决方法：观察运行过程中请求影响状态/仔细分析源码获取垃圾url生成规则，对url进行过滤

3.2.5 阻塞网络io

反爬原理：发送请求获取响应的过程实际上就是下载的过程，在任务队列中混入一个大文件的url，当爬虫在进行该请求时将会占用网络io，如果是有多线程则会占用线程

解决方法：观察爬虫运行状态/多线程对请求线程计时/发送请求线

3.2.6 运维平台综合审计

反爬原理：通过运维平台进行综合管理，通常采用复合型反爬策略，多种手段同时使用

解决方法：仔细观察分析，长期运行测试目标网站，检查数据采集速度，多方面处理

4.常见基于数据加密进行反爬

4.1 对响应中含有的数据进行特殊化处理

通常的特殊化处理主要指的是css数据偏移/自定义字体/数据加密/数据图片/特殊编码格式

4.1.1 通过自定义 字体来反爬

猫眼口碑，左面写的口碑9.2，检查之后，右面根本不会显示该数字，而是显示几个方框

在无痕模式准备抓包，打开网址，可以找到它的数字就像一段乱码，这就是它自定义的字体：

处理方法：我们可以将数字和自定义字体对应起来，比如9对应的就是

4.1.2 通过css来反爬

反爬思路：源码数据不为真正数据，需要通过css位移才能产生真正数据

解决思路：计算css偏移

4.1.3 通过 js动态生成数据 进行反爬

反爬原理：通过js动态生成

解决思路：解析关键js，获得数据生成流程，模拟生成数据

4.1.4 通过数据图片化反爬

一串数字在做成图片显示

解决思路：通过使用图片解析引擎从图片中解析数据

4.1.5 通过编码格式进行反爬

反爬原理：不适用默认编码格式，在获取响应后通常爬虫使用utf-8格式进行解码，此时解码结果将会是乱码或者报错

解决思路：根据源码进行多格式解码，或者真正的解码格式

-END-

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、机器学习、自动化测试带你从零基础系统性的学好Python！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

开发语言

学习

pdf

Python爬虫教程28：聊聊反爬爬虫经常遇到的问题及解决方法的相关文章

使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
适用于 iPhone / iPad / iOS 的快速、精益 PDF 查看器 - 提示和提示？

最近有很多关于绘制 PDF 的问题是的您可以使用UIWebView但这无法提供您所期望的优秀 PDF 查看器的性能和功能您可以绘制PDF页面到 CALayer http www cocoabuilder com archive coc
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

基于springboot实现线答疑系统项目设计与演示【附项目源码+论文说明】

基于springboot实现线答疑系统项目设计与演示摘要随着手机使用的普及人们取得信息与储存信息的方式已经发生了非常大的转变智能手机正在一步步融入到我们的生活之中并影响和改变着我们的生活由于现在各种智能手机的使用使得人们在管理
基于springboot实现的服装管理系统实现演示【附项目源码+论文说明】

基于springboot实现的服装管理系统实现演示摘要随着网络的飞速发展和普及人们的生活越来越依赖于网络对网络的需求仍然在增加毫无疑问网络已然成为了人们生活的重要组成部分在生活中人们通过网络能够及时快速准确地获得新闻娱乐及
The Sandbox 携手 Sandsoft，与 Nuqtah 合作推动沙特阿拉伯的 Web3 发展

新的合作伙伴关系将增强创作者的能力促进区块链生态系统的包容性 The Sandbox 及其合作伙伴 Sandsoft 是移动游戏开发商和发行商也是 AAA 人才驱动的投资者他们非常高兴地宣布与 Nuqtah 建立新的合作伙伴关系 Nu
【已解决】RuntimeError: Trying to backward through the graph a second time (or directly access saved tens

问题描述 Traceback most recent call last File home sysu qfy project GCL GCL Main py line 281 in
基于springboot+微信小程序实现校园互助平台项目演示【附项目源码+论文说明】

基于springboot 微信小程序实现校园互助平台项目演示摘要随着我国经济迅速发展人们对手机的需求越来越大各种手机软件也都在被广泛应用但是对于手机进行数据信息管理对于手机的各种软件也是备受用户的喜爱校园互助平台被用户普遍使用
【已解决】RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILEDYou can try to repro this exception us

问题描述 Traceback most recent call last File Wtest py line 209 in
近日，小序一

最近啊想明白一些事情人活着为了什么为名利为欲望还是为来生为名利者争权夺势终会迷失本心为欲望者浑浑噩噩终会误入歧途唯有为来生者无欲无求一心向善一心向善者是灵魂富有的人但往往生活贫瘠所以我为什么你又为什
VPS怎么建站?从零开始，一步步教你建立理想网站

在数字时代拥有一个令人印象深刻的网站是成功的关键之一但是许多人对如何从零开始建立自己的网站感到困惑本文将向您介绍使用VPS来建立理想网站的步骤无需编程经验我们将一步步为您解释如何实现这一目标第一步选择合适的VPS主机为什么
基于springcloud实现微服务小区实现生活服务平台演示【附项目源码+论文说明】

基于springcloud实现微服务小区生活服务平台系统演示摘要社会的发展和科学技术的进步互联网技术越来越受欢迎网络计算机的生活方式逐渐受到广大人民群众的喜爱也逐渐进入了每个业主的使用互联网具有便利性速度快效率高成本低等优
c++ RAII

C 的RAII是C 的发明者提出的一个使用C 面向对象特性管理关键的操作系统资源的编程方式其核心想法就是通过类封装管理操作系统资源并且利用了C 类的栈对象出栈的时候会调用析构函数的特性在析构函数中释放系统资源来避免资源泄漏下面两个链
「Bomkus 博士的试炼」排行榜规则更新

亲爱的玩家们为了回应我们从社区收到的宝贵反馈我们希望与大家分享我们为防止在 Bomkus 博士的试炼排行榜中作弊而采取的措施的最新进展并就这一主题提供更多说明除了在活动开始前采取的反作弊措施外我们还根据观察到的和报告的行为在整个
题解 | #糖糖别胡说，我真的不是签到题目#

可以提前把施法后的b算出来因为前面的结果会影响后面的判断 include
HTTP方法GET、POST、PUT和PATCH的区别是什么

请实现一个定时任务调度器有很多任务每个任务都有一个时间戳任务会在该时间点开始执行定时执行任务是一个很常见的需求例如滴滴打车48小时后自动好评淘宝购物代码中的类名方法名参数名已经指定请勿修改直接返回方法规定的值即可 pa
JeecgBoot低代码开发—Vue3版前端入门教程

JeecgBoot低代码开发 Vue3版前端入门教程后端接口配置 VUE3 必备知识 1 vue3新特性 a https v3 cn vuejs org b setup的用法
题解 | #实现二叉树先序，中序和后序遍历#

include
使用tensorflow2.15.0版跑bert模型遇到的问题记录

背景使用官方的bert模型 https github com google research bert gt https github com google research bert 作文本分类时运行 run classifier p
企业软件的分类有哪些|app小程序定制开发

企业软件的分类有哪些 app小程序定制开发企业软件是指为了满足企业运营和管理需求而开发的软件系统根据不同的功能和应用领域企业软件可以分为以下几个分类 1 企业资源计划 Enterprise Resource Planning ERP
网页中的json文档，怎么保存到本地

火狐浏览器操作方法方法一右键 gt 另存页面为方法二点击右边的三条横线 gt 另存页面为谷歌浏览器操作方法方法一右键 gt 另存为方法二
封装一个OpenH264 编解码H264视频文件的类

下面是一个更新后的代码增加了 H 264 编码的支持在这个示例中我使用了 OpenH264 的 ISVCEncoder 接口进行编码请确保在项目中正确链接 OpenH264 库并根据你的项目需要调整代码 include
Python爬虫教程28：聊聊反爬爬虫经常遇到的问题及解决方法

反爬的三个方向 1 基于身份识别进行反爬 2 基于爬虫行为进行反爬 3 基于数据加密进行反爬 1 常见基于身份识别进行反爬 1 1通过headers字段来反爬 headers中有很多字段这些字段都有可能会被对方服务器拿过来判断

Python爬虫教程28：聊聊反爬爬虫经常遇到的问题及解决方法

Python爬虫教程28：聊聊反爬爬虫经常遇到的问题及解决方法 的相关文章

随机推荐

热门标签

Python爬虫教程28：聊聊反爬爬虫经常遇到的问题及解决方法的相关文章