Python网络抓取：睡眠和请求之间的区别（页面，超时= x）

2024-02-24

当循环抓取多个网站时，我注意到之间的速度存在相当大的差异，

sleep(10)
response = requests.get(url)

and,

response = requests.get(url, timeout=10)

那是，timeout速度要快得多。

此外，对于这两种设置，我预计在请求下一页之前每页的抓取持续时间至少为 10 秒，但事实并非如此。

为什么速度会有这么大的差别呢？
为什么每页抓取时长不到10秒？

我现在使用多处理，但我认为记住上述内容也适用于非多处理。

time.sleep停止你的脚本运行一定的秒数，而timeout是检索 url 的最长时间等待时间。如果在之前检索到数据timeout时间已到，剩余时间将被跳过。所以使用它可能需要不到 10 秒的时间timeout.

time.sleep不同的是，它会完全暂停您的脚本，直到它完成睡眠，然后它将再花几秒钟运行您的请求。所以time.sleep每次都会花费10秒以上。

它们有非常不同的用途，但对于您的情况，您应该创建一个计时器，这样如果它在 10 秒之前完成，则让程序等待。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

timeout

screenscraping

sleep

difference

Python网络抓取：睡眠和请求之间的区别（页面，超时= x）的相关文章

如何让“conda”安装程序查找“PyPi”包

我试图使用conda http conda pydata org docs using pkgs html managing packages包管理器来安装我的 Python 包最近我遇到了 Anaconda org 存储库中不存在我需
Flask-SocketIO redis 订阅

我在用着https github com miguelgrinberg Flask SocketIO https github com miguelgrinberg Flask SocketIO实现 WebSocket 服务器我需要从另一
GUI 测试工具 PyUseCase 与 Dogtail 相比如何？

GUI测试工具如何Py用例 http pypi python org pypi PyUseCase重命名为故事文本 http pypi python org pypi StoryText 相比于Dogtail http en wikiped
pyCUDA无法打印结果

最近我使用 pip 为我的 python3 4 3 安装 pyCUDA 但我在测试示例代码时发现 https documen tician de pycuda tutorial html getting started https doc
Python 不考虑 distutils.cfg

我已经尝试了给出的所有内容并且所有教程都指向相同的方向即使用 mingw 作为 python 而不是 Visual C 中的编译器我确实有 Visual C 和 mingw 当我想使用 pip 安装时问题开始出现它总是给Unabl
Python Requests 库重定向新 url

我一直在浏览 Python 请求文档但看不到我想要实现的任何功能在我的脚本中我设置allow redirects True 我想知道该页面是否已重定向到其他内容新的 URL 是什么例如如果起始 URL 为 www google c
为什么需要设置WORKON_HOME环境变量？

我已经有一段时间没有使用 python 虚拟环境了但我也安装了虚拟环境包装器我的问题是在文档页面中它说要这样做 export WORKON HOME Envs mkdir p WORKON HOME source usr local
Python在没有pandas的情况下解码excel表

我正在尝试在 python 中读取 excel 文件而不使用pandas or xlrd 我一直在尝试将结果转换为bytes to utf 8没有任何成功 xls 文件中的数据 colA colB colC spc 1D0 20190705
使用 ElementTree 在 python 中解析 xml

我对 python 很陌生我需要解析一些脏的 xml 文件这些文件需要先清理我有以下 python 代码 import arff import xml etree ElementTree import re totstring wit
pandas groupby 操作缺少数据

在 pandas 数据框中我有一列如下所示 0 M 1 E 2 L 3 M 1 4 M 2 5 M 3 6 E 1 7 E 2 8 E 3 9 E 4 10 L 1 11 L 2 12 M 1 a 13 M 1 b 14 M 1 c 15
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
AttributeError: 'super' 对象没有属性 '__getattr__' 在 Kivy 中使用带有多个 kv 文件的 BoxLayout 时出错

我很清楚这个问题已经被问过好几次了但尝试以下解决方案后 Python Kivy AttributeError 尝试获取 self ids 时 super 对象没有属性 getattr https stackoverflow com qu
如何将 URL 添加到 Telegram Bot 的 InlineKeyboardButton

我想制作一个按钮可以从 Telegram 聊天中在浏览器中打开 URL 外部超链接目前我只开发了可点击的操作按钮 update message reply text Subscribe to us on Facebook and Te
数据损坏 C++ 和 Python 之间的管道

我正在编写一些代码从 Python 获取二进制数据将其通过管道传输到 C 对数据进行一些处理在本例中计算互信息度量然后将结果通过管道传输回 Python 在测试时我发现如果我发送的数据是一组尺寸小于 1500 X 1500 的 2
如何创建增量加载网页

我正在编写一个处理大量数据的页面它会永远持续到我的结果页面加载几乎无限因为返回的数据太大了因此我需要实现一个增量加载页面例如 url 中的页面 http docs python org http docs python org
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
从给定的项目列表创建子列表

我首先要说的是以下问题不是为了家庭作业目的即使因为我几个月前就完成了软件工程师的工作无论如何今天我正在工作一位朋友向我询问了这个奇怪的排序问题我有一个包含 1000 行的列表每行代表一个数字我想创建 10 个子列表每个子列表都
tf.print() vs Python print vs tensor.eval()

看来在Tensorflow中至少有三种方法可以打印出张量的值我一直在读here https www freecodecamp org news debugging tensorflow a starter e6668ce72617 an
SQLAlchemy 与 count、group_by 和 order_by 使用 ORM

我有几个函数需要使用 count group by 和 order by 进行一对多连接我使用 sqlalchemy select 函数生成一个查询该查询将返回一组 id 然后我对其进行迭代以对各个记录执行 ORM 选择我想知道是否有
ProcessPoolExecutor 传递多个参数

ESPN播放器免费 class ESPNPlayerFree def init self player id match id match id team 团队名单1 277906 cA2i150s81HI3qbq1fzi za1Oq5CG

随机推荐

正则表达式匹配不在引号内的所有实例

From this q a https stackoverflow com questions 2700953 a regex to match a comma that isnt surrounded by quotes 我推断匹配给定正
C 中的局部变量和静态变量

编译时 external definitions int value1 0 static int value2 0 gcc 编译器生成以下程序集 globl value1 bss align 4 type value1 object siz
加载 AVPlayer 时出现错误线程 1：EXC_BAD_ACCESS (code=EXC_I386_GPFLT)

当我选择一个collectionViewCell时我试图加载一个AVPlayer 这是我的代码didSelectItem func collectionView collectionView UICollectionView didSel
给定 y，在贝塞尔曲线上获取 x

我有一条贝塞尔曲线 0 0 25 1 25 1 and 1 1 此处以图形方式显示 http cubic bezier com 25 1 25 1 http cubic bezier com 25 1 25 1 我们看到x轴上是时间这是我
手动引导 AngularJS 然后获取模块

一般来说我会执行以下操作并且会有一个ng app在我的 HTML 中 var myApp angular module myApp myApp controller AttributeCtrl function scope scope
Rails 应用程序希望我重新启动 webrick 服务器以应对控制器中的任何更改

我正在开发一个现有的 Rails 2 3 x 应用程序所以我正在开发它这是一个混乱的代码我很难运行该应用程序但是现在对于我的控制器之一中的每一个小更改它都希望我重新启动我的服务器否则更改不会反映回来让我们在这里举一个示例场景
错误：无法解析“\node_modules\@angular-devkit\build-angular\src\angular-cli-files\models”中的“core-js/es7/reflect”

更新到 Angular 7 3 6 后我在 ngserve 上收到以下错误错误于 node modules Angular devkit build Angular src Angular cli files models jit po
如何在Python中创建带换行符的字符串？ [复制]

这个问题在这里已经有答案了我有一段文字没有你聪明的嘴我该怎么办把我拉进去你又把我踢出去你让我头晕目眩别开玩笑了我无法阻止你那美丽的心灵里到底在想什么我在你的神奇神秘旅程中我很头晕不知道是什么击中了我但我会没事的现在我想用这
如何在 Flutter 中将类似 Duration 的字符串转换为真实的 Duration？

正如标题所示我得到一个字符串 01 23 290 它看起来像一个持续时间但不是现在我需要用它来与真实的 Duration 进行比较但我不知道如何处理它有什么方法吗使用这样的解析函数然后使用比较方法Duration Durati
对 Xamarin.iOS Storyboard 的 MVVMCross 支持

由于支持即将制作稳定流的 iOS 故事板的 XS 集成我希望能够将此功能与 MVVMCross 结合使用从根本上来说它似乎确实有点不应该工作因为故事板指示视图项目中的导航层次结构而不是像 MVVMCross 这样的视图模型项目但
Jackson 从 Class 创建 JavaType

必须有一种方法来创建JavaType from String class 注意方法的输入must be JavaType对于我的用例因为该值是使用动态创建的TypeFactory Returns a JavaType for Map
如何使用 C# 在代码中进行数据绑定？

我打算在我的几个类之间使用数据绑定换句话说我不是在模型类和 UI 之间绑定值而是在不同类之间绑定变量我在多个地方读到过有关 C 中的数据绑定的内容但大多数都是指 Windows 窗体和源对象之间的绑定我还是 C 新手这就是我理
jpGraph 的替代方案

这是我第一次使用 php 生成图表你知道 jpGraph 有什么替代品吗排名不分先后这里有一些 PHP 图表库图表总监 http www advsofteng com cdphp html 石墨矿 http graphpite so
Firebase 安全规则：公共数据与私有数据

我有一个签名集合其中每个签名都有一些属性公共全名城市然后是电子邮件我想保持电子邮件属性的私密性并且我一直在努力编写正确的规则以仅返回全名和城市这是我的rules json 到目前为止的样子 rules signatures
在 Coq 中证明可逆列表是回文

这是我对回文的归纳定义 Inductive pal X Type list X gt Prop pal0 pal pal1 forall x X pal x pal2 forall x X l list X pal l gt pal x l
默默地从Python字典中删除键[重复]

这个问题在这里已经有答案了我有一个 python 字典我想默默地删除其中一个None and 我的字典中的键所以我想出了这样的东西 try del my dict None except KeyError pass try del my
无法检索运营商名称

使用iPhone6 Xcode 8 1 运行iOS 10 1 1 执行以下命令我不断收到 Swift 代码无法检索运营商名称错误消息出现在我的第一个消息之前ViewController甚至负载我搜索了类似但不相同的解决方案Car
web.xml 过滤器映射不转发到 struts

我正在尝试做一些微不足道的事情但看不到我错过了什么我有以下 web xml
获取 RibbonControlsLibrary.Aero2 的 FileNotFoundException

我最近在尝试运行使用 WPF 功能区的项目时开始收到此错误它之前一直在这台机器上运行但由于某种原因现在不能运行图书馆来自here http www microsoft com en us download details aspx i
Python网络抓取：睡眠和请求之间的区别（页面，超时= x）

当循环抓取多个网站时我注意到之间的速度存在相当大的差异 sleep 10 response requests get url and response requests get url timeout 10 那是 timeout速度要快得

Python网络抓取：睡眠和请求之间的区别（页面，超时= x）

Python网络抓取：睡眠和请求之间的区别（页面，超时= x） 的相关文章

随机推荐

热门标签

Python网络抓取：睡眠和请求之间的区别（页面，超时= x）的相关文章