python爬虫Request

2023-11-12

【1】先确定是否为动态加载网站
【2】找URL规律 
【3】正则表达式 | xpath表达式 
【4】定义程序框架,补全并测试代码

 1、request是什么

Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比,Requests更加方便,可以节约我们大量的工作,建议爬虫使用Requests库。

2、request爬取格式

【1】方法一 : requests.get()
【2】参数
   2.1) url
   2.2) headers
   2.3) timeout
   2.4) proxies

【3】方法二 :requests.post()
【4】参数
    data

2.1request

①request.get

②request.post

2.2response

 response方法,response方法 获取网页的解码字符串 通过上述例子我们可以看到,不管是get请求还是post请求,我们得到的返回都是一个Response[200]的对象,但是我们想要得到的,应该是与网页response下一样的字符串对象,这时就需要用到response的方法了。response.text:获取网页的HTML字符串,该方式往往会出现乱码,出现乱码使用response.encoding='utf-8'

 

 

 定制headers

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫Request 的相关文章

随机推荐

  • Spring Boot连接DB2查询结果时报错“java.lang.AbstractMethodError: com.ibm.db2.jcc.t4.b.isValid(I)Z”的解决办法...

    关于在maven项目中如何添加DB2的坐标的详细 见 https www cnblogs com zifeiy p 7918554 html Spring Boot项目中的application properties文件内容如下 DB Co
  • 育碧2k微软服务器,育碧服务器出现大规模的BUG:影响到多个平台

    PConline资讯 昨日 育碧的服务器出现大规模的BUG 包括 彩虹六号 幽灵行动 等多款育碧游戏无法进行联机游戏 育碧官方也是在第一时间在微博和推特发布了消息并表示正在积极抢修 而期间间歇性的断开连接和排队则一直没有停止过 PS4 Xb
  • elementUI el-button 点击后样式自动恢复的方法

    问题描述 elementUI 中的按钮 点击后会有focus样式 且只有点击其他地方后 按钮才会失焦 样式才会恢复到点击之前的样式 例如主要按钮是亮蓝色 点击后是暗蓝色 点击其他地方才会恢复亮蓝色 我希望将鼠标放在按钮上时会改变样式 但是点
  • 三伏天是几月几号2023-三伏天需要注意什么

    三伏天是几月几号2023 2023年三伏天具体时间如下 初伏 2023年7月11日 2023年7月20日 共10天 中伏 2023年7月21日 2023年8月9日 共20天 末伏 2023年8月10日 2023年8月19日 共10天 三伏天
  • 奇偶数分离

    描述 有一个整型偶数n 2 lt n lt 10000 你要做的是 先把1到n中的所有奇数从小到大输出 再把所有的偶数从小到大输出 输入 第一行有一个整数i 2 lt i lt 30 表示有 i 组测试数据 每组有一个整型偶数n 输出 第一
  • JavaWeb:Servlet

    Servlet 文章目录 Servlet Servlet介绍 Web服务器 Tomcat Servlet接口 Servlet接口介绍 类图 Servlet接口源码 GenericServlet抽象类 HttpServlet抽象类 Servl
  • Python 报错:can only concatenate str (not “int”)to str

    x 1 print x x 使用 连接时 只能将字符串与字符串连接 不能和int型连接 需要将x强制转换成str型 x 1 print x str x
  • 如何配置H3C S5500每个VLAN配一个DHCP池

    给Vlan定义地址并配置其工作在服务器模式 interface Vlan interface12 ip address 172 18 12 1 255 255 255 0 dhcp select server global pool 给Vl
  • 计算机浮点数规格化表示

    说明 在IEEE标准中 浮点数在内存中的表示是将特定长度的连续字节的所有二进制位按特定长度划分为符号域 指数域和尾数域三个连续域 float float类型在内存中占用的位数为 1 8 23 32bits double 1 11 52 64
  • Android 关于NestedScrollView与RecyclerView的滑动冲突的最终解决方案

    最近做项目的时候发现一个小问题 当NestedScrollView嵌套RecyclerView的时候回出现种种不适 网上给出的解决方案 比如去除RecyclerView的滑动事件 修改NestedScrollView或者RecyclerVi
  • TensorFlow 框架(contrib) - TensorFlow图形编辑器(contrib)

    TensorFlow 框架 contrib TensorFlow 框架工具 tf contrib framework assert same float dtype tf contrib framework assert scalar tf
  • pandas某一列中每一行拆分成多行的方法

    在处理数据过程中 常会遇到将一条数据拆分成多条 比如一个人的地址信息中 可能有多条地址 既有家庭地址也有工作地址 还有电话信息等等类似的情况 实际使用数据的时候又需要分开处理 这个时候就需要将这一条数据进行拆分成多条 以方便使用 在pand
  • Mybatis-Plus中update更新操作用法

    目录 一 前言 二 update 1 关于修改的4个条件构造器 2 UpdateWrapper 用法示例 3 LambdaUpdateWrapper 用法示例 4 UpdateChainWrapper 用法示例 5 LambdaUpdate
  • 志愿者打卡器服务器无响应,【转发】“志愿者打卡器”普及贴

    原标题 转发 志愿者打卡器 普及贴 首先欢迎各位加入建院志愿者的大家庭 在这里 我们真实地接触社会 我们付出热忱和真心 但是 你们的汗水不会白流 你们的时间也不会白白付出 你们的无私奉献也会得到相应的回报 在建院 任何形式的志愿活动都可以累
  • xss-labs通关大合集

    漏洞原理 看这里哇 目录 xss labs level1 level2 level3 level4 level5 level6 level7 level8 level9 level10 level11 level12 level13 lev
  • 虚拟服务器本地ssd型,云服务器本地ssd型

    云服务器本地ssd型 内容精选 换一换 若您对扩展的云服务器的规格有特殊的要求 可通过使用新模板创建伸缩配置 可按照您的需求配置新模板的规格参数 使得伸缩组内云服务器的规格均符合创建新模板的规格 登录管理控制台 选择 计算 gt 弹性伸缩
  • Python实现PP图和QQ图的应用

    Python实现PP图和QQ图的应用 在数据可视化领域 PP图和QQ图常常被用作数据研究和分析的工具 PP图 Probability Probability plot 和QQ图 Quantile Quantile plot 是由概率论和统计
  • Qt中的坐标系统

    1 坐标系统 GUI操作系统都有特定的坐标系统 图形界面程序在坐标系统中进行窗口和部件的定位 定位类型 顶级窗口部件的定位 窗口内部件的定位 窗口部件的大小设置 Qt使用统一的坐标系统定位窗口部件的位置和大小 Qt部件提供成员函数在坐标系统
  • T-SQL语句添加约束

    语法 ALTER TABLE 表名 ADD CONSTRAINT约束名约束类型 具体的约束声明 约束名的取名规则推荐采用 约束类型 约束列 当然你也可以不这么命名 这样单纯是比较方便 如 主键 Primary Key 约束 PK UserI
  • python爬虫Request

    1 先确定是否为动态加载网站 2 找URL规律 3 正则表达式 xpath表达式 4 定义程序框架 补全并测试代码 1 request是什么 Requests是用python语言基于urllib编写的 采用的是Apache2 License