在 Python 中建立 Web 连接的这两种方法之间有什么实际区别？

2024-03-03

我注意到有几种方法可以启动 http 连接以进行网络抓取。我不确定某些是否是更新的编码方式，或者它们是否只是具有不同优点和缺点的不同模块。更具体地说，我试图了解以下两种方法之间有什么区别，您会推荐什么？

1）使用urllib3：

http = PoolManager()
r = http.urlopen('GET', url, preload_content=False)
soup = BeautifulSoup(r, "html.parser")

2）使用请求

html = requests.get(url).content
soup = BeautifulSoup(html, "html5lib")

除了需要导入不同模块这一简单事实之外，是什么使这两个选项与众不同？

在引擎盖下，requests uses urllib3完成大部分 http 繁重工作。如果使用得当，它应该基本相同，除非您需要更高级的配置。

除了，在你的特定示例中，它们是not相同：

在 urllib3 示例中，您重复使用连接，而在 requests 示例中，您没有重复使用连接。您可以通过以下方法判断：

>>> import requests
>>> requests.packages.urllib3.add_stderr_logger()
2016-04-29 11:43:42,086 DEBUG Added a stderr logging handler to logger: requests.packages.urllib3
>>> requests.get('https://www.google.com/')
2016-04-29 11:45:59,043 INFO Starting new HTTPS connection (1): www.google.com
2016-04-29 11:45:59,158 DEBUG "GET / HTTP/1.1" 200 None
>>> requests.get('https://www.google.com/')
2016-04-29 11:45:59,815 INFO Starting new HTTPS connection (1): www.google.com
2016-04-29 11:45:59,925 DEBUG "GET / HTTP/1.1" 200 None

要像在 urllib3 PoolManager 中那样开始重用连接，您需要发出请求session.

>>> session = requests.session()
>>> session.get('https://www.google.com/')
2016-04-29 11:46:49,649 INFO Starting new HTTPS connection (1): www.google.com
2016-04-29 11:46:49,771 DEBUG "GET / HTTP/1.1" 200 None
>>> session.get('https://www.google.com/')
2016-04-29 11:46:50,548 DEBUG "GET / HTTP/1.1" 200 None

Now这相当于你正在做的事情http = PoolManager()。另请注意：urllib3 是一个较低级别的更显式库，因此您显式创建一个池并且显式需要指定您的 SSL 证书位置 https://urllib3.readthedocs.io/en/latest/security.html#using-certifi-with-urllib3，例如。这是一两行额外的工作，但如果您正在寻找的话，也需要更多的控制。

总而言之，比较就变成了：

1）使用urllib3：

import urllib3, certifi
http = urllib3.PoolManager(ca_certs=certifi.where())
html = http.request('GET', url).read()
soup = BeautifulSoup(html, "html5lib")

2）使用请求:

import requests
session = requests.session()
html = session.get(url).content
soup = BeautifulSoup(html, "html5lib")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Python 中建立 Web 连接的这两种方法之间有什么实际区别？的相关文章

网站（Google 和/或您）应如何处理 Accept-Language 标头？

很长一段时间以来我对谷歌在以下情况下的行为并不满意并且在无意中注意到之后80 其他人 https stackoverflow com questions 1011167 what are common ui misconceptions
Python 3.6.1 安装位置

我在 Ubuntu 16 服务器上安装了 Python 3 6 1 但找不到安装位置我查看了 usr bin 其中提到了除 3 6 1 之外的所有其他版本在哪里可以找到该版本的可执行文件使用命令 whereis python3 6 1
ASCII - Asciimatics - 如何在代码中实现效果/屏幕

几篇文章之前有人建议我研究一下 Python 的 Asciimatics 库我正在尝试使用以下方法来解决它样品 https github com peterbrittain asciimatics tree master sample
H2O服务器崩溃

去年我一直在使用 H2O 我已经厌倦了服务器崩溃我已经放弃了夜间发布因为它们很容易被我的数据集崩溃请告诉我在哪里可以下载稳定的版本 Charles 我的环境是 Windows 10 企业版内部版本 1607 具有 64 GB 内存
Windows 操作系统中 ST_INO（os.stat() 输出）的含义

谁能告诉我这个值的含义是什么st ino是跑步时os stat 在 Windows 上 Python 3 5 3 在早期的 Python 版本中它包含虚拟值但最近发生了变化我找不到它是如何计算生成的我怀疑它因文件系统 NTFS F
过滤条件的查询字符串与资源路径

背景我有2个资源 courses and professors A course具有以下属性 ID topic 学期号年部分教授 id A professor具有以下属性 ID 学院超级用户名姓所以你可以说一门课程有一位教
如何在android中创建nanohttpd服务器？

其实我也查过一些问题然后去github上找了一下但我是新来的我无法理解这个例子我想在android中创建http服务器这样我就可以在PC浏览器中访问它我有一个类扩展 nanohttpd 的实例但服务器无法工作不知道为什么我
Flask-migrate：更改模型属性并重命名相应的数据库列

我对 Flask 有一些经验但对数据库 Flask migrate alembic SqlAlchemy 不太了解我正在跟进this https blog miguelgrinberg com post the flask mega t
捕获 subprocess.run() 的输入

我在 Windows 上有一个交互式命令行 exe 文件是由其他人编写的当程序出现异常时它会终止并且我对程序的所有输入都会丢失所以我正在编写一个 python 程序它调用一个阻塞子进程subprocess run 并捕获所有输入
对于一般不成功的请求（不是错误），适当的 HTTP 状态代码响应是什么？

我正在创建一个 RESTful API 它将处理许多用户交互包括使用存储的信用卡下订单如果订单成功我将返回 200 OK 如果订单请求格式错误或无效我将返回 400 Bad Request 但如果订单实际处理过程中出现问题我该怎么
如何阅读网站内容？

我是使用 python 2 7 的网络爬虫的新手一背景现在我想收集有用的数据AQICN org http aqicn org city shenyang usconsulate 这是一个很棒的网站提供世界各地的空气质量数据我想用
导入错误：无法导入名称“FFProbe”

我无法获取ffprobe包 https github com simonh10 ffprobe在 Python 3 6 中工作我使用 pip 安装它但是当我输入import ffprobe it says Traceback most
加载pickle时出错

无法加载 pickle 文件我正在使用 python 3 5 import pickle data pickle load open D ud120 projects final project final project dataset
Seed_data.yaml 文件中有没有办法自动生成第一个模型所依赖的模型？

我正在使用 Django 2 0 Python 3 7 和 MySql 5 我有以下两个模型第二个依赖于第一个 class CoopType models Model name models CharField max length 20
python 中带有 lambda 函数字典的奇怪行为

我编写了一个用于生成 lambda 常量函数字典的函数它是一个更复杂函数的一部分但我已将其简化为下面的代码 def function a interpolators for key in a keys interpolators key
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
如何在 Laravel 中使用 PUT http 动词提交表单

我知道这个问题可能已经提出但我就是无法让它发挥作用如果有人可以帮助我我将非常感激我安装了 colletive form 但答案也可以是 html 表单标签现在列出我的表格我的路线和我的例外情况 Form model array
Python3 和 xml/xslt 库

在 python 2 6 中我这样做是为了实现 xsl 转换 import libxml2 import libxslt styledoc libxml2 parseFile my xslt file style libxslt pars
在 HTML 表单中使用 PUT 方法

我可以在 HTML 表单中使用 PUT 方法将数据从表单发送到服务器吗根据HTML标准 https www w3 org TR html5 sec forms html element attrdef form method 你可以not
Python 3.4 中的“异步”

aiohttp 的入门文档提供了以下客户端示例 import asyncio import aiohttp async def fetch page session url with aiohttp Timeout 10 async wit

随机推荐

如何从外部实用程序 jar 正确加载和配置 Spring bean

目前我有一个实用程序 jar 其中包含许多数据存储服务这些数据存储服务在幕后使用 Spring Data MongoDB 并且所有内容都使用实用程序 jar 中的 app context xml 文件进行配置我希望这个实用程序 jar
如何在 ggplot2 中为使用 stat_summary 制作的线条添加图例？

假设我正在处理以下假数据 var1 lt runif 20 0 30 var2 lt runif 20 0 40 year lt c 1900 1919 data gg lt cbind data frame var1 var2 yea
Protocol Buffer：如何导入？

我有 2 个 proto 文件第一个文件 package com test model message ProtoModel required CustomObj custom 1 第二个文件 package com test model
集群环境 (Websphere) 中的 Java EE 应用程序范围变量？

在 Java EE 应用程序在 Websphere 上运行中是否有任何简单的方法可以在整个集群的应用程序范围内共享对象有些东西可能类似于 Servlet Context 参数但在集群中共享例如在服务器 A 和 B 的集群中如果
如何强制浏览器下载而不是查看 ASP.NET Webforms 中的 PDF 文档

只是想问如何防止网络浏览器在浏览器中查看因为每次用户单击链接下载它在浏览器中查看 asp net controller li li
如何使用 Python 查找 Pycharm 的版本

我有一个程序可以从我的系统中获取版本 selenium python 和 chrome 并将其与在线最新版本进行比较这是从我的系统获取 pythons 版本的代码 pythonVersion platform python version
给定崩溃偏移量、.PDB 和源代码，我如何找到源代码行？

我有一个 Windows 事件日志条目给出了触发应用程序崩溃的失败调用的偏移量我有一个发布版本相应的 PDB 文件和源代码我没有 MAP 或 COD 文件如何找到失败的源代码行 WinDbg 有一个ln命令将为您提供最接近的地址符
我如何在cakephp中实现多模板

我使用 CakePHP 框架我想在我的项目中拥有多个模板 CakePHP 有没有办法实现多个模板例如管理员可以在后端选择第一个或第二个模板用户可以使用相同的模板就像在 Joomla 后端一样如果有什么办法我该如何实施只是向您
将一对插入 std::vector 时 emplace_back() 与 Push_back

我定义了以下内容 std vector
在 Spring 应用程序中找不到 OptaPlanner SolverManager Bean

我对使用 Spring 相当陌生并且遇到了一个似乎无法解决的问题我正在尝试使用一个名为优化规划器 https docs optaplanner org 7 6 0 Final optaplanner docs html single i
维基百科 api 全文搜索返回带有标题、片段和图像的文章

我一直在寻找一种基于搜索字符串来查询 wikipedia api 的方法以获取具有以下属性的文章列表 Title 片段描述与文章相关的一张或多张图片我还必须使用 jsonp 进行查询我尝试过使用 list search 参数但它
如何在 Kibana 中搜索特殊字符

我想找到包含此序列 gt 的消息但 Kibana 结果是错误的如何逃脱这个角色才能有好的结果呢 Thanks 首先我认为你应该检查一下你的mappings 您的字段是否未标记为not analyzed 或者没有关键字分析器如果它碰巧在
如何根据作者的时间戳进行 git 日志排序？

我使用一个相当复杂的git log命令涉及 date order获取我的存储库状态的概述但不幸的是 date order似乎使用提交者日期而不是author日期这意味着每次我通过将主题分支重新定位到当前上游来更新主题分支时我都会失去
RStudio 升级 1.0.44 后 opts_knit$set(root.dir = path) 不起作用

我升级到 RStudio 1 0 44 似乎 knitr opts knit set root dir path 其中路径是我的目录无法像以前一样工作它抛出一条消息 The working directory was changed to
Perl 闭包和 $_

我尝试学习一种不熟悉的编程语言的第一件事就是它如何处理闭包它们的语义通常与语言处理范围和其他各种棘手位的方式交织在一起因此理解它们可以揭示该语言的其他几个方面另外闭包是一种非常强大的构造并且通常会减少我必须输入的样板文件的数量所
如何从范围内仅复制Excel VBA中的值？ [复制]

这个问题在这里已经有答案了我正在尝试使用 vba 宏在 Excel 中将值从表复制到范围但我不需要表格式只需要它的值我怎样才能实现这个目标这是代码的一部分 Source range Set r Sheets Sheet1 Rang
将 x:DataType 添加到页面 xaml 会导致 ListView DataTemplate 属性出现错误

我已经从代码后面设置了 ViewModel 以进行依赖注入我想在 xaml 中留下 IntelliSense 建议的可能性一切似乎都有效但是一旦我添加x DataType viewModels HomeViewModel 我收到错误N
仅针对一项活动隐藏 ActionBar 标题

如果我将主题应用于整个应用程序它会成功隐藏 ActionBar 标题
将自定义菜单项添加到 Finder 上下文菜单

如何将自定义菜单项添加到 Finder 中文件的上下文菜单不幸的是 Internet 和 Stack Overflow 上的大多数信息在 10 6 中不起作用或者太有限例如 Automator 不允许您动态创建项目或创建子菜单我知道仍
在 Python 中建立 Web 连接的这两种方法之间有什么实际区别？

我注意到有几种方法可以启动 http 连接以进行网络抓取我不确定某些是否是更新的编码方式或者它们是否只是具有不同优点和缺点的不同模块更具体地说我试图了解以下两种方法之间有什么区别您会推荐什么 1 使用urllib3 http Po

在 Python 中建立 Web 连接的这两种方法之间有什么实际区别？

在 Python 中建立 Web 连接的这两种方法之间有什么实际区别？ 的相关文章

随机推荐

热门标签

在 Python 中建立 Web 连接的这两种方法之间有什么实际区别？的相关文章