Web Scraper：限制单个域上每分钟/小时的请求数？

2024-02-09

我正在与一位图书管理员合作，重新构建其组织的数字摄影档案。

我用Python构建了一个机器人机械化 http://wwwsearch.sourceforge.net/mechanize/ and 美丽汤 http://www.crummy.com/software/BeautifulSoup/从集合中提取约 7000 个结构不良且轻微不正确/不完整的文档。数据将被格式化为电子表格，他可以用它来纠正它。现在，我估计总共有 7500 个 HTTP 请求来构建搜索字典，然后收集数据，这还不包括我的代码中的错误和重做，随着项目的进展，还会有更多请求。

我假设我发出这些请求的速度存在某种内置限制，即使没有，我也会让我的机器人延迟，以礼貌地对待负担过重的网络服务器。我的问题（诚然不可能完全准确地回答）是在遇到内置速率限制之前我可以多快发出 HTTP 请求？

我不想发布我们正在抓取的域的 URL，但如果相关，我会询问我的朋友是否可以分享。

注意：我意识到这是not解决我们问题的最佳方法（重新构建/组织数据库），但我们正在构建一个概念验证，以说服上级相信我的朋友拥有数据库的副本，他将从中进行导航让我直接处理数据所必需的官僚机构。

他们还为我们提供了 ATOM feed 的 API，但它需要关键字来搜索，并且对于逐步浏览特定集合中的每张照片的任务来说似乎毫无用处。

HTTP 没有内置的速率限制。大多数常见的 Web 服务器都没有配置开箱即用的速率限制。如果速率限制到位，则几乎可以肯定它是由网站管理员设置的，您必须询问他们配置了什么。

一些搜索引擎尊重 robots.txt 的非标准扩展，该扩展建议速率限制，因此请检查Crawl-delay in robots.txt.

HTTP确实有一个并发连接两个连接的限制，但浏览器已经开始忽略这一点，并且正在努力修改标准的这一部分，因为它已经过时了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Web Scraper：限制单个域上每分钟/小时的请求数？的相关文章

通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording
使用 SQLAlchemy 时出现“NoneType”对象没有属性“get”错误

我一直在尝试使用 SQLAlchemy 将对象映射到数据库但遇到了障碍 Edit Basically changed a whole bunch of stuff 版本信息如果方便的话操作系统 Mac OSX 10 5 8 Pytho
如何向 scikit-learn KD 树添加/删除数据点？

我想知道是否可以在创建 scikit learn KDTree 实例后添加或删除数据点例如 from sklearn neighbors import KDTree import numpy as np X np array 1 1 2
使用什么 API 在现有 MFC 应用程序中添加 HTTP 客户端支持？

我最近接到一项任务要添加与以下内容交互的能力网络地图服务 http en wikipedia org wiki Web Map Service到现有的 MFC 应用程序我需要客户端 HTTP API 根据我的研究领先的候选人似乎是CA
运行 Sublime Text 3 插件时保存编辑

为了理解我想要实现的目标在另一个视图中打印延迟文本我正在尝试使这个 sublime text 3 插件正常运行我想使用运行方法参数中传递的编辑来调用我的类的多个方法如下所示 sample code nothing real class
编写每个处理程序中间件

我希望从处理程序中提取一些重复的逻辑并将其放入一些每个处理程序的中间件中特别是 CSRF 检查检查现有会话值即身份验证或预览页面等我读了关于此的几篇文章 http justinas org writing http middle
使用 psycopg2 在 python 中执行查询时出现“编程错误：语法错误位于或附近”

我正在运行 Python v 2 7 和 psycopg2 v 2 5 我有一个 postgresql 数据库函数它将 SQL 查询作为文本字段返回我使用以下代码来调用该函数并从文本字段中提取查询 cur2 execute SELECT
没有名为 crypto.cipher 的模块

我现在正在尝试加密一段时间我最近得到了这个基于 python 的密码器名为PythonCrypter https github com jbertman PythonCrypter 我对 Python 相当陌生当我尝试通过终端打开 C
Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此

随机推荐

通过actionscript 3在Flash中设置舞台消失点

我正在与几位设计师合作他们每个人都创建了在同一个 Flash 应用程序中使用的 3D 动画使用 fp 10 功能每个 3D 动画都是一个独特的影片剪辑最终将成为同一 fla 文件的一部分我遇到的问题是每个影片剪辑都是在单独的 fl
react-native fetch返回状态码+json

我在react native中使用fetch来进行API调用我需要获取状态代码 200 401 404 和响应数据这项工作是为了获取响应数据 return fetch url then response gt return respon
为什么命令完成后我的 stderr 重定向没有结束？我该如何解决它？

在 Windows 中无论是在命令行还是批处理文件中命令DIR 2 gt NUL 3 gt 2 你可以替换DIR任何东西即使不是文件或命令都会使所有错误从那时起丢失除非你写2 gt CON 每次命令之后为什么 CMD 还要这样做
如何告诉 R 解释器如何使用代理服务器？

我试图让 R 在 Windows 上运行从 Internet 下载一些软件包但下载失败因为我无法让它正确使用必要的代理服务器当我尝试 Windows 菜单选项时的输出文本Packages gt 安装软件包选择一个CRAN镜像是 g
如何将 Ninject 集成到 ASP.NET Core 2.0 Web 应用程序中？

我发现 Ninject 最近引入了对 NET Standard 2 0 NET Core 2 0 的支持 https www nuget org packages Ninject 3 3 0 但是我找不到任何扩展来将其实际集成到 Web
Docker：容器在专用网络上找不到域

我试图解决在不同主机上运行相同的 docker 容器的问题其中一个容器可以在专用网络上找到 ping nslookup 域而另一个容器则不能一台主机是 OSX 10 11 另一台是 Ubuntu 16 04 两者都运行 docker
.htaccess 单页301重定向

网站重新设计后我有几个页面需要重定向所有内容都保留在同一个域中只有一些内容被重新组织和或重命名它们的形式如下 contact php is now 联系我们 php 使用 htaccess 文件我添加了这一行这是我最推荐的一行
使用 HTML5 和 AngularJS 拖动表格列

http jsfiddle net asutosh 82qum http jsfiddle net asutosh 82qum div div table border 4 thead th div hd div th thead tr t
JQuery 附加 javascript

我尝试创建模块化应用程序因此每个页面都包含自己的 html 和 javascript 代码我应该动态加载所有代码如下所示 var s document createElement script s type text javascri
解包参数：只有命名参数可以跟在*表达式后面

以下代码在 Python 中运行得非常好 def f x y z return x y z a 1 2 f 3 a 的要素a像你这样称呼它一样打开包装f 3 1 2 它返回 3 1 2 精彩的但我无法解开其中的元素a进入first两个论点
类型安全：来自对象的未经检查的强制转换

我尝试将一个对象转换为我的 Action 类但它会导致警告 Type safety Unchecked cast from Object to Action
UserControl 和 Window 的一个 ViewModel 或单独的 ViewModel

I have MainWindow and AddEdit UserControl 里面MainWindow我渲染这个 AddEdit 就像
通过排除字段使用更新视图 django 编辑模型对象

我在尝试着Edit Update使用 django 的模型对象记录 Updateview model py from django db import models from myapp models import Author clas
Laravel Eloquent：如何将 whereDate 与 Between 一起使用？

我正在使用 Laravel 5 5 我需要形成一个查询其中仅应匹配日期时间列的日期部分相当于date date col 2018 01 01 之类的事情我如何以雄辩的方式实现这一目标 WhereDate 返回日期部分但有什么方法可以
Java 8：从列表中查找最小值的索引

假设我有一个包含元素的列表 34 11 98 56 43 使用 Java 8 流如何找到列表中最小元素的索引例如本例中为 1 我知道这可以在 Java 中轻松完成list indexOf Collections min list 然而
Swift UI 被高频 @StateObject 更新淹没了吗？

Scenario 一个简单的 SwiftUIApp由一个TabView有两个选项卡这App结构体有一个 StateObject属性该属性正在重复且非常快速地每秒 30 次更新simulateFastStateUpdate 在这个例子
WinForms Tab控件问题

我有一个以两种模式显示的表单切换模式完全改变了表单的外观就像您使用选项卡控件并且每个选项卡上的控件布局不同一样如果我可以隐藏选项卡本身选项卡控件将是完美的当然我可以使用两个面板并以编程方式显示和隐藏适当的面板我尝试了这个但我
在 log4j xml 配置中使用系统环境变量

是否可以在 log4j xml 配置文件中引用系统环境变量而不是 Java 系统属性我希望能够做类似的事情
Debian sid下RStudio安装失败：libgstreamer依赖问题

我使用 Debian sid amd64 每周滚动更新一次我最近从他们的官方网站下载了 RStudio 的桌面版本 0 99 902 并发布当然以 root 身份 dpkg i rstudio 0 99 902 amd64 deb 无
Web Scraper：限制单个域上每分钟/小时的请求数？

我正在与一位图书管理员合作重新构建其组织的数字摄影档案我用Python构建了一个机器人机械化 http wwwsearch sourceforge net mechanize and 美丽汤 http www crummy com so

Web Scraper：限制单个域上每分钟/小时的请求数？

Web Scraper：限制单个域上每分钟/小时的请求数？ 的相关文章

随机推荐

热门标签

Web Scraper：限制单个域上每分钟/小时的请求数？的相关文章