[007]爬虫系列

2023-11-17

一、背景

        有些时候网站开发者为了反爬,会做一些状态码欺骗的处理,【原理如下】:

例如:浏览器发送一个请求,获取一个js文件,服务器返回状态码,例如:503等

此时浏览器就会按照状态码503给它做相应的处理!!!

即:浏览器为了速度,会清缓存!!

所以直接search或者response看不到任何东西!!!【如下】

二、解决 

虽然浏览器会清空缓存,那么我们可以通过fiddler抓包查看响应内容即可!!!fiddler不会清掉!!!

备注:

由于找了挺久,没找到相关反爬操作的网站,所以这里以404状态码为例!!!其原理差不多!!!

2.1  浏览器抓包

response:

search: 

 2.2 Fiddler抓包

我们发现其实里面是存在数据的!!!

三、总结

对于服务器返回的状态码!!!我们可以不管它,当其不存在即可!!!

愿您生活愉快! 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

[007]爬虫系列 的相关文章

随机推荐

  • LogisticRegression

    1 概述 在scikit learn中 与逻辑回归有关的主要是这3个类 LogisticRegression LogisticRegressionCV 和logistic regression path 其中LogisticRegressi
  • 11个优秀的Android开发开源项目

    一 一个类似微信的时光轴效果 项目地址 https github com ljtyzhr TimeLine 二 安卓选择器类库 包括日期 时间 单项 双项选择器 城市地址选择器 项目地址 https github com gzu liyuj
  • hbase hbck工具

    fix Try to fix region assignments This is for backwards compatiblity fixAssignments Try to fix region assignments Replac
  • 网络视频刷单调查:4分钟免费刷2.2万300元能买4000万点击

    新生事物的起步常伴随着混沌期的野蛮生长 比如网络视频行业 如果说票房测量电影市场的高低 收视率检验电市场的冷暖 那么反映网络视频是否受欢迎的一个直观指标就是点击量了 公众所看到的视频点击量数据真实性到底如何 又有多少点击量是靠 刷单 刷出来
  • 掌握Python的X篇_23_main的作用(python规范写代码中,__name__内置变量的使用)

    上篇我们介绍了模块和如何使用模块 本篇将会介绍与模块共同会出现的问题 那就是在python规范写代码中会使用到 name 这种特殊的变量 文章目录 1 name 是什么 2 模块import的不方便 3 name 的用处 大家可能已经见过
  • 聚焦Web前端安全:最新揭秘漏洞防御方法

    在 Web 安全中 服务端一直扮演着十分重要的角色 然而前端的问题也不容小觑 它也会导致信息泄露等诸如此类的问题 在这篇文章中 我们将向读者介绍如何防范Web前端中的各种漏洞 万字长文 请先收藏再阅读 首先 我们需要了解安全防御产品已经为我
  • 【StyleGAN论文精读CVPR_2019】A Style-Based Generator Architecture for Generative Adversarial Networks

    StyleGAN论文精读CVPR 2019 A Style Based Generator Architecture for Generative Adversarial Networks 一 前言 Abstract 1 Introduct
  • 6-5抽象类和抽象方法的使用

    package com atguigu java abstract 关键字的使用 1 abstract 抽象的 2 abstract 可以用来修饰的结构 类 方法 3 abstract 修饰类 抽象类 此类不能实例化 抽象类中一定有构造器便
  • Makefile学习3

    addprefix函数 函数名称 加前缀函数 addprefix 返回值 以单空格分割的添加了前缀 PREFIX 的文件名序列 示例 addprefix src foo bar 回值为 src foo src bar wildcard即通配
  • 【网络协议详解】——数据链路层协议(学习笔记)

    前言 数据链路层是 OSI 模型中的第二层 位于物理层之上 是通信网络中的重要组成部分之一 数据链路层协议负责将网络层传输的数据分组封装成帧 传输到物理层 并通过物理介质进行传输 同时 数据链路层协议还需要提供错误检测和纠正 流控等功能 以
  • Android 使用高德SDK编写周边搜索定位

    转载请注明 前言 使用高德SDK实现定位及周边的搜索界面 先看效果图 效果图看这 传不上 使用到了高德以下sdk com amap api 3dmap latest integration com amap api search lates
  • 解决IDEA导入MAVEN项目,jar包没有引进来报Cannot resolve symbol 'Autowired'

    解决IDEA导入MAVEN项目 jar包没有引进来报Cannot resolve symbol Autowired 原因 IDEA的缓存导致 解决办法 找到项目所在文件夹 找到 idea文件夹 删掉 从新导入 就好了
  • Web后端开发(请求响应)上

    请求响应的概述 浏览器 请求 lt HTTP协议 gt 响应 Web服务器 请求 获取请求数据 响应 设置响应数据 BS架构 浏览器 服务器架构模式 客户端只需要浏览器 应用程序的逻辑和数据都存储在服务端 维护方便 体验一般 CS架构 客户
  • Navicat15工具连接PostgreSQL15失败

    1 错误现象及原因 错误现象 错误原因 postgresql 15版本中 pg database 系统表把 datlastsysoid 列删除了 所以造成了此错误 2 解决方法 1 将Navicat工具更新到官网最新版本 2 更换 post
  • uboot SPL framework的前世今生

    一开始只有uboot 没有SPL 后来由于一些原因 参考文献1 有些公司如TI添加了SPL 模块 SPL的作用为 参考文献2 为了提高代码的可重用性 uboot 2012 10中将SPL模块标准化 叫做SPL framework 查看ubo
  • 双指针技巧总结

    一 双指针技巧 情景1 通常 我们只需要一个指针进行迭代 即从数组中的第一个元素开始 最后一个元素结束 然而 有时我们会使用两个指针进行迭代 双指针的典型场景 1 从两端向中间迭代数组 2 一个指针从头部开始 而另一个指针从尾部开始 1 反
  • python获取最大、最小值

    1 获取数组极值 并返回索引 c 10 5 0 5 3 10 15 20 25 print c index min c 返回最小值 print c index max c 返回最大值 2 对series求最值 file path D Rec
  • 【C++】模板初阶

    文章目录 1 文件的编译和链接 1 1编译 1 2链接 2 函数模板 2 1函数模板格式 2 2函数模板的显示实例化 2 3非模板函数和同名函数模板的调用顺序 3 类模板 4 模板声明和定义分离的情况 1 文件的编译和链接 1 1编译 编译
  • (一)linux系统简介, centos简介及特点,设置静态IP,防火墙

    本章重点 linux系统简介及特点 下载安装 网络和防火墙的相关命令 具体内容 linux系统简介 Linux 内核最初只是由芬兰人林纳斯 托瓦兹 Linus Torvalds 在赫尔辛基大学上学时出于个人爱好而编写的 git 代码同步技术
  • [007]爬虫系列

    一 背景 有些时候网站开发者为了反爬 会做一些状态码欺骗的处理 原理如下 例如 浏览器发送一个请求 获取一个js文件 服务器返回状态码 例如 503等 此时浏览器就会按照状态码503给它做相应的处理 即 浏览器为了速度 会清缓存 所以直接s