托管爬虫的最佳解决方案? [关闭]

2024-03-17

我有一个爬虫,可以爬行几个不同的域以获取新帖子/内容。内容总量数十万页,并且每天都有大量新内容添加。因此,为了能够爬行所有这些内容,我需要我的爬虫程序 24/7 进行爬行。

目前,我将爬网程序脚本托管在与爬网程序添加内容的网站相同的服务器上,并且我只能运行 cronjob 在夜间运行脚本,因为当我这样做时,网站基本上会停止工作,因为脚本的负载。换句话说,这是一个非常蹩脚的解决方案。

所以基本上我想知道这种解决方案的最佳选择是什么?

  • 是否可以继续从同一主机运行爬虫,但以某种方式平衡负载,以便脚本不会杀死网站?

  • 我需要什么样的主机/服务器来托管爬虫?除了普通的虚拟主机之外,我还需要其他规格吗?

  • 爬虫保存它爬取的图像。如果我将爬网程序托管在辅助服务器上,如何将图像保存在网站的服务器上?我想我不想在我的上传文件夹上使用 CHMOD 777 并允许任何人将文件放在我的服务器上。


我决定选择 Amazon Web Services 来托管我的爬虫,它们既有用于队列的 SQS,也有自动可扩展实例。它还有 S3,我可以在其中存储所有图像。

我还决定将整个爬虫程序重写为 Python 而不是 PHP,以便更轻松地利用队列等功能并保持应用程序 100% 运行,而不是使用 cronjobs。

那么我做了什么,这意味着什么

  1. 我为我的爬网程序设置了一个 Elastic Beanstalk 应用程序,该应用程序设置为“Worker”并侦听 SQS,其中存储了需要爬网的所有域。 SQS 是一个“队列”,我可以在其中保存需要爬行的每个域,爬虫将侦听队列并一次获取一个域,直到队列完成。不需要“cronjobs”或类似的东西,一旦队列将数据放入其中,它就会将其发送给爬虫。这意味着爬虫程序 100% 的时间(24/7)都处于运行状态。

  2. 应用程序设置为自动缩放,这意味着当队列中有太多域时,它将设置第二个、第三个、第四个等......实例/爬虫以加快该过程。我认为这对于任何想要建立爬虫的人来说都是非常非常非常重要的一点。

  3. 所有图像都保存在 S3 实例上。这意味着图像不会保存在爬虫的服务器上,并且可以轻松获取和使用。

结果非常好。当我有一个 PHP 爬虫每 15 分钟在 cronjobs 上运行一次时,我每小时可以爬行大约 600 个 URL。现在,我每小时可以毫无问题地抓取 10'000 多个网址,甚至更多取决于我设置自动缩放的方式。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

托管爬虫的最佳解决方案? [关闭] 的相关文章

  • 有效地从 2 个数据帧中查找日期时间范围的重叠

    关于查找日期或时间范围的重叠存在一些问题 例如 https stackoverflow com questions 9044084 efficient date range overlap calculation in python 我用这
  • ElasticSearch 匹配多个前缀术语

    我试图为 ElasticSearch 提供一个包含多个术语的查询 然后给出匹配的文档 其中指定的术语位于目标字段中的任何位置 这些术语可以是完整的单词或单词前缀 示例文档 msg 你好 我是一条短信 示例查询字符串 你好消息 你好 和 消息
  • 如何提高 Field.set 的性能(也许使用 MethodHandles)?

    我正在编写一些调用的代码Field set https docs oracle com en java javase 11 docs api java base java lang reflect Field html set java l
  • 您可以从 MethodInfo 对象获取 Func (或类似的)吗?

    我意识到 一般来说 使用反射会对性能产生影响 实际上 我本人根本不喜欢反思 这纯粹是学术问题 假设存在一些如下所示的类 public class MyClass public string GetName return My Name 请耐
  • 为什么直接内存“数组”的清除速度比通常的 Java 数组慢?

    我建立了一个 JMH 基准来衡量什么会更快Arrays fill与空 System arraycopy从空数组中 将 DirectByteBuffer 归零或将unsafe内存块试图回答这个问题question https stackove
  • 慢 Eclipse Spring STS 插件

    我是 Spring 新手 安装了 Eclipse STS 插件 使用服务似乎非常慢 CPU 使用率激增 笔记本电脑只会变热 实际上风扇就像喷气发动机一样运行 直接响应服务的启动 停止 虽然下面的内容确实为我解决了 Spring STS 的所
  • 我们可以使用什么方法来重塑非常大的数据集?

    当由于非常大的数据计算将花费很长时间并且因此我们不希望它们崩溃时 事先知道要使用哪种重塑方法是很有价值的 Lately methods for reshaping data have been further developed regar
  • 使用map.get()时使用java Map.containsKey()是多余的

    一段时间以来 我一直想知道在最佳实践中是否允许避免使用containsKey 方法上java util Map而是对结果进行空检查get 我的理由是 两次查找值似乎是多余的 首先是查找containsKey 然后再次为get 另一方面 大多
  • 空 while 循环有什么影响?

    我知道这可能是一个有点 愚蠢 的问题 但有时 我只想循环直到条件为假 但我不喜欢让循环保持为空 所以代替 Visible true while IsRunning Visible false 我通常prefer while IsRunnin
  • 在hibernate统计中,load和fetch之间有什么区别

    我主要看EntityStatics http www hibernate org hib docs v3 api org hibernate stat EntityStatistics html http www hibernate org
  • 为什么C++代码执行速度比java慢?

    我最近用 Java 编写了一个计算密集型算法 然后将其翻译为 C 令我惊讶的是 C 的执行速度要慢得多 我现在已经编写了一个更短的 Java 测试程序和一个相应的 C 程序 见下文 我的原始代码具有大量数组访问功能 测试代码也是如此 C 的
  • SQLite .NET 性能,如何加快速度?

    在我的系统上 约 86000 个 SQLite 插入需要长达 20 分钟 意味着每秒约 70 个插入 我要做数百万 我怎样才能加快速度 对每一行的 SQLiteConnection 对象调用 Open 和 Close 会降低性能吗 交易有帮
  • Draggable JS Bootstrap 模式 - 性能问题

    对于工作中的项目 我们在 JavaScript 中使用 Bootstrap Modal 窗口 我们想让一些窗口可移动 但我们遇到了 JQuery 的性能问题 myModal draggable handle modal header Exa
  • Plesk 11 强制重定向到非 www

    我已经订购了装有 Plesk 11 的新专用服务器 将我的网站从旧服务器移至新服务器 但在打开网站时遇到一些问题 使用 htaccess 我强制客户端使用带有 www 的网站 Plesk 默认情况下执行相反的操作 www 到非 www 结果
  • 如何抓取数十亿页面? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 是否可以在一台服务器上抓取数十亿个页面 如果您希望数据是最新的 则不需要 即使是搜索游戏中的小玩家也会爬行数十亿个页面 In 2006
  • 如何阅读网站内容?

    我是使用 python 2 7 的网络爬虫的新手 一 背景 现在 我想收集有用的数据AQICN org http aqicn org city shenyang usconsulate 这是一个很棒的网站 提供世界各地的空气质量数据 我想用
  • 高效秒表

    您好 我正在用 javascript 编写一个秒表实用程序 我有一个关于效率和开销的问题 我考虑过两种制作秒表的方法 1 存储开始日期并不断测量自该日期以来经过的毫秒数 2 创建一个整数并按设定的时间间隔递增其值 我想知道哪个最有效 另外
  • 到 ToList() 还是不到 ToList()?

    给定一个在记忆中 不是 LINQ to SQL 类列表 List
  • 会话重新启动后 AVcapture 会话启动缓慢

    我有一个主视图控制器 它连接到具有 avcapturesession 的第二个视图控制器 我第一次从主视图控制器转向捕获会话控制器 大约需要 50 毫秒 使用 仪器 检查 然后我从捕获会话返回到主视图控制器 然后从主控制器返回到 avcap
  • 多处理器机器中秒表的最佳实践?

    我找到了一个好的question https stackoverflow com questions 28637 is datetime now the best way to measure a functions performance

随机推荐

  • 如何使用 MVC RAZOR 将 DataTable 绑定到 DropDownList?

    我的模型返回数据表的集合 如下所示 如何使用 MVC RAZOR 将 DataTable 绑定到 DropDownList 对于每个数据表 我想为其创建一个表行和一个下拉列表 我尝试了下面的代码 foreach DataTable data
  • QHash存储大量数据

    我有 10 000 000 个 struct int int int int 类型的条目 当我使用它们存储时QHash http doc qt io qt 5 qhash html or QMap http doc qt io qt 5 q
  • 使用 Dojo 设置 元素的值/文本

    我正在开发一个秒表应用程序 试图学习 Dojo Toolkit 因此 首先 我需要将小时 分钟 秒和毫秒设置为 0 I tried dojo byId hours value 00 还尝试过 domAttr set hours 00 它不起
  • 使用 webpack 编译 less

    我想添加一个非常基本的 less 文件到我的project https github com pbrianmackey uiexperiment在 github 上 参见这次提交 https github com pbrianmackey
  • 如何使用expressJS提供ReactJS静态文件?

    问题 我已成功提供 React 应用程序的 index html 文件 但是index js取代
  • 从存在缺失值的现有列创建新列

    我正在尝试根据这两列创建一个新列 假设我想创建一个新列 z 当 y 不丢失时 它应该是 y 的值 当 y 确实丢失时 它应该是 x 的值 所以在这种情况下 我期望 z 是 1 8 10 8 x y 0 1 NaN 1 2 8 2 4 10
  • Sympy:化简平方根

    Sympy 似乎无法简化涉及变量平方的平方根的表达式 In 28 a x 2 In 29 b a 1 2 In 30 b Out 30 0 5 2 x In 31 b simplify Out 31 0 5 2 x 我无法将此与其他变体一起
  • 使用 PHP 7.2.4 的 Ubuntu 16.04 上缺少 PDO 驱动程序

    我想在Kubuntu 16 04上尝试最新版本的PHP 从那时起 我似乎无法将pdo与mysql一起使用 当我启动 php 时 出现以下警告 PHP Warning PHP Startup Unable to load dynamic li
  • 从 s3 读取文件时 joblib.load 出错

    当尝试从 s3 读取文件时joblib load 我收到错误ValueError embedded null byte当尝试读取文件时 这些文件是由 joblib 创建的 并且可以从本地副本 在上传到 s3 之前在本地制作 成功加载 因此错
  • 在 Backbone 中进行视图混合的正确方法

    我一直扩展基本主干视图 并且每个部分都有一个基本视图 以便我可以在多个级别上扩展 我的问题是 执行视图混合的最有效方法是什么 可以混合到任何视图中的可重用视图部分 例如 var BaseProfile Backbone View exten
  • Yahoo Pipes:根据文本文件中的单词过滤提要中的项目

    我有一个管道 可以过滤 RSS 提要并删除任何包含我选择的 停用词 的项目 目前 我已经在管道编辑器中为每个停用词手动创建了一个过滤器 但更合乎逻辑的方法是从文件中读取它们 我已经弄清楚如何从文本文件中读取停用词 但是如何将过滤器运算符应用
  • ReCaptcha 在 iPhone 上无法正常工作

    我有一个带有简单联系表格的网站 验证有点少 因为它不进入数据库 只是一封电子邮件 该表格的工作原理如下 有 5 个字段 其中 4 个为必填字段 提交将被禁用 直到 4 个字段有效 然后您才能提交 然后 所有内容都会在服务器上再次验证 包括验
  • Hibernate 完全支持 SQLite 吗?

    Jboss Hibernate 中没有提及对 SQLite 的支持its wiki https community jboss org wiki SupportedDatabases2 Stack Overflow 帖子中也提到了同样的内容
  • ggplot2刻度填充梯度与离散上限

    我正在寻找价值热图 我希望热图从表示低值的蓝色 示例代码中的 0 变为表示高值的绿色 示例代码中的 75 但是 数据包含大于 75 的值 我希望任何大于 75 的值都用红色填充 总而言之 我希望填充从 0 到 75 蓝色 到绿色 绿色 任何
  • 如何将es6语法添加到atom编辑器

    我曾经使用 sublime text 但现在想使用atom io 编辑器 我有这些代码行 error Missing semicolon import React Component from react export default cl
  • 根据 Java 编码标准进行异常处理

    我有一个关于异常处理情况下的java标准的查询 代码片段 public String methodXXX This method may throw IllegalArgumentexception and arrayoutofbounda
  • 用 C++ 解释 2D 线段/四叉树 [关闭]

    Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 附 这可能不是重复的 我进行了搜索 并确保我没有得到我想要的东西 我是一名 ACM 问题解决者 最近我学习了线性数组的线段树和具有延迟传播的
  • 如何使用 CMake 和 Visual Studio 设置路径环境变量来运行测试

    我正在使用 CMake 生成 Visual Studio 项目文件 我想在设置 PATH 环境变量后运行测试可执行文件 以便它能够加载所需的 dll 我尝试按照讨论http www mail archive com 电子邮件受保护 msg2
  • 如何才能有一个永久状态行显示当前文件的名称?

    我总是忘记我正在编辑哪个文件 In Vim 7 x how can I have a permanent status bar at the bottom like what is displayed when I press Ctrl G
  • 托管爬虫的最佳解决方案? [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我有一个爬虫 可以爬行几个不同的域以获取新帖子 内容 内容总量数十万页 并且每天都有大量新内容添加 因此