如何基于Scrapy构建一个永远运行的网络爬虫？

2024-05-05

我想基于Scrapy构建一个网络爬虫，从多个新闻门户网站抓取新闻图片。我希望这个爬虫是：

永远奔跑

意味着它将定期重新访问一些门户页面以获取更新。
安排优先事项。

为不同类型的 URL 赋予不同的优先级。
多线程获取

我已经阅读了Scrapy文档，但没有找到与我列出的内容相关的内容（也许我不够仔细）。这里有人知道该怎么做吗？或者只是给出一些想法/例子。谢谢！

Scrapy 是一个用于网站抓取的框架，因此，它旨在支持您的标准，但它不会开箱即用地为您跳舞；对于某些任务，您可能需要相对熟悉该模块。

永远运行取决于调用 Scrapy 的应用程序。你告诉蜘蛛 http://doc.scrapy.org/topics/spiders.html去哪里以及何时去那里。
确定优先顺序是调度程序中间件 http://doc.scrapy.org/experimental/scheduler-middleware.html您必须创建它并将其插入 Scrapy 中。关于此的文档似乎参差不齐，我没有查看代码 - 原则上该函数就在那里。
Scrapy 本质上是，本质上是异步的 http://doc.scrapy.org/topics/architecture.html#event-driven-networking这很可能正是您所期望的：请求 B 可以得到满足，而请求 A 仍然未完成。底层连接引擎不会阻止您善意多线程，但Scrapy不提供线程服务。

Scrapy 是一个库，而不是一个应用程序。该模块的用户需要完成大量的工作（代码）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webcrawler

Scrapy

如何基于Scrapy构建一个永远运行的网络爬虫？的相关文章

使用 python 制作本地服务器应用程序的最佳方法

我想要简单轻松地集成 python 和 vba 人们如果他们在阅读本文后亲自见到我阅读本文可能会杀了我但我正在使用 django 开发服务器来实现此目的有没有什么简单又好的方法仅举个例子我想使用 python 模块 openpy
将 pandas 数据框中的列减去其第一个值

我需要将 pandas 数据帧的一列中的所有元素减去其第一个值在这段代码中 pandas 抱怨 self inferred type 我猜这是循环引用 df Time df Time df Time 0 在这段代码中 pandas 抱怨为
Python 中的六边形自组织映射

我在寻找六边形自组织映射 http en wikipedia org wiki Self organizing map在Python上准备好模块如果存在的话绘制六边形单元格的方法将六边形单元作为数组或其他方式使用的算法 About
使用 Django 的 post_save() 信号

我有两张桌子 class Advertisement models Model created at models DateTimeField auto now add True author email models EmailField
用 Python 编写一个无操作或虚拟类

假设我有这样的代码 foo fooFactory create 由于种种原因 fooFactory create 可能无法创建实例Foo 如果可以的话我想要fooFactory create 返回一个虚拟无操作对象这个对象应该是完全惰性
如何用 python 和 sympy 解决多元不等式？

我对使用 python 和 Sympy 还很陌生并且遇到了使用 sympy 解决多元不等式的问题假设我的文件中有很多函数如下所示 cst sqrt x 2 cst exp sqrt cst x 1 4 log log sqrt cst
Dask DataFrame 的逐行处理

我需要处理一个大文件并更改一些值我想做这样的事情 for index row in dataFrame iterrows foo doSomeStuffWith row lol doOtherStuffWith row dataFrame
Python 中 genfromtxt() 的可变列数？

我有一个 txt具有不同长度的行的文件每一行都是代表一条轨迹的一系列点由于每条轨迹都有自己的长度因此各行的长度都不同也就是说列数从一行到另一行不同据我所知 genfromtxt Python 中的模块要求列数相同 gt gt g
使用正则表达式解析 Snort 警报文件

我正在尝试使用 Python 中的正则表达式从 snort 警报文件中解析出源目标 IP 和端口和时间戳示例如下 03 09 14 10 43 323717 1 2008015 9 ET MALWARE User Agent Win9
Python：当前目录是否自动包含在路径中？

Python 3 4 通过阅读其他一些 SO 问题似乎如果moduleName py文件位于当前目录之外如果要导入它必须将其添加到路径中sys path insert 0 path to application app folder
将 subprocess.Popen 的输出通过管道传输到文件

我需要启动一些长时间运行的进程subprocess Popen 并希望拥有stdout and stderr从每个自动管道到单独的日志文件每个进程将同时运行几分钟我想要两个日志文件 stdout and stderr 每个进程当进程运行
唯一的图像哈希值即使 EXIF 信息更新也不会改变

我正在寻找一种方法来为 python 和 php 中的图像创建唯一的哈希值我考虑过对原始文件使用 md5 和因为它们可以快速生成但是当我更新 EXIF 信息有时时区关闭时它会更改总和并且哈希也会更改有没有其他方法可以为这些文
Python：随时接受用户输入

我正在创建一个可以做很多事情的单元其中之一是计算机器的周期虽然我将把它转移到梯形逻辑 CoDeSys 但我首先将我的想法放入 Python 中我将进行计数只需一个简单的操作 counter 1 print counter 跟踪我处于
行为：如何从另一个文件导入步骤？

我刚刚开始使用behave http pythonhosted org behave 一个Pythonic BDD框架使用小黄瓜语法 http docs behat org guides 1 gherkin html 行为需要一个特征例
反加入熊猫

我有两个表我想附加它们以便仅保留表 A 中的所有数据并且仅在其键唯一时添加表 B 中的数据键值在表 A 和 B 中是唯一的但在某些情况下键将出现在表 A 和 B 中我认为执行此操作的方法将涉及某种过滤联接反联接以获取表 B
Python While 循环，and (&) 运算符不起作用

我正在努力寻找最大公因数我写了一个糟糕的运算密集型算法它将较低的值减一使用检查它是否均匀地划分了分子和分母如果是则退出程序但是我的 while 循环没有使用 and 运算符因此一旦分子可整除它就会停止即使它不是正确
urllib2.urlopen() 是否实际获取页面？

当我使用 urllib2 urlopen 时我在考虑它只是为了读取标题还是实际上带回整个网页 IE 是否真的通过 urlopen 调用或 read 调用获取 HTML 页面 handle urllib2 urlopen url html
在谷歌Colab中使用cv2.imshow()

我正在尝试通过输入视频来对视频进行对象检测 cap cv2 VideoCapture video3 mp4 在处理部分之后我想使用实时对象检测来显示视频 while True ret image np cap read Expand di
使用“pythonw”（而不是“python”）运行应用程序时找不到模块

我尝试了这个最小的例子 from flask import Flask app Flask name app route def hello world return Hello World if name main app run deb
使用 numpy 加速 for 循环

下一个 for 循环如何使用 numpy 获得加速我想这里可以使用一些奇特的索引技巧但我不知道是哪一个这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

如何使用 lambda 表达式调试stream().map(...)？

在我们的项目中我们正在迁移到 java 8 并且正在测试它的新功能在我的项目中我使用 Guava 谓词和函数来过滤和转换一些集合Collections2 transform and Collections2 filter 在这次迁移中
Android：焦点时改变样式

我有这个自定义布局 LinearLayout FrameLayout ImageView TextView 此布局对点击事件做出反应使用LinearLayout setOnClickListener 并使用可聚焦android focus
使用 JMS Serializer 将 XML 反序列化为具有嵌套节点的实体

我想使用 JMS Serializer 将 XML 文件反序列化为实体它对于直接属性非常有效但是当涉及到嵌套属性时如果不创建相关实体我就无法使其工作例如
使用 Documents4j 将 Doc 转换为 PDF

我想尝试使用 Documents4j 将文档转换为 PDF 我按照此处的说明进行操作http documents4j com develop http documents4j com develop 当我打字时mvn package然后按回
在 TensorFlow 中将多个字节读取到单个值中

我尝试以 TensorFlow 中 cifar10 示例中描述的类似方式读取标签 label bytes 2 it was 1 in the original version result key value reader read fil
Eslint：警告文件默认被忽略。使用否定忽略模式

我是 Eslint 的新手到目前为止我已经在本地项目中安装了 Eslint 并进行了配置 eslintrc js 文件包含 module exports env node true commonjs true es6 true moch
横向推荐的材料设计工具栏高度是多少

对于全息设计根据 Jake Wharton 的说法景观期间建议的操作栏高度为 40dp https stackoverflow com a 7181591 72437 https stackoverflow com a 7181591
找出某个日期时间自unix纪元以来的时间？

我想找出 2009 年 10 月 1 日 9 00 BST 的 UNIX 时间即自 Unix 纪元以来的秒数我如何在 Linux 命令行上执行此操作我知道你可以使用date UNIXTIME someformat 但是unix时间是我
Linux Mint 20.x 基于 Ubuntu / 无法安装 pgadmin4

我已经安装了postgres 好吧但我尝试安装 pgadmin4 大约 2 小时但就是做不到我在互联网上尝试了很多指南但他们都得到相同的结果 Package pgadmin4 has no installation candidat
将无限范围的值映射到 10 种颜色？

我有以下 10 种颜色的列表 public static readonly IList
在 Delphi 7 中使用 TScreen

我的 Delphi 7 应用程序显示 Screen DesktopWidth Screen DesktopHeight Screen Monitors 0 Width Screen Monitors 0 Height 并且如果选择了第二台
为什么我的 FragmentTransacton() 或 FragmentManager.beginTransaction() 会遇到空指针异常

我收到 nullPointerException java lang RuntimeException Unable to start activity ComponentInfo private java lang NullPointer
GDB错误：“进程记录：当前架构不支持记录功能”

我正在尝试在 GDB 中进行反向执行特别是target record按照说明在 gdb 中运行我的程序后here https stackoverflow com questions 1206872 go to previous line
检查 2 个数组是否至少有 1 个相等的值 [重复]

这个问题在这里已经有答案了目前我有2个数组 array 1 2 3 4 array 4 5 6 7 我如何检查它们是否至少有一个相等的值上面的示例有 1 个相等值 gt 4 因此该函数应返回 true 数组相交 http php net
#ifdef MACRO 相当于注释吗

假设 MACRO 没有定义这些是等价的 ifdef MACRO Not valid C or C code endif Not valid C or C code 在 GCC 4 7 1 中它似乎是等效的但是否有预处理器可以做更多的事
如何应用着色器并仅生成图像一次？

我正在尝试将像素化着色器应用于我的纹理并且我只需要将其应用一次之后我可以一遍又一遍地重复使用我的着色器生成的图像作为纹理而不必每次都进行计算那么我如何拍摄一些图像 gt 应用着色器并在每次游戏加载时仅渲染它们一次 gt 并将它们用作
Javascript-CSS 显示和隐藏表单元素

通过使用 Javascript 如何显示和隐藏表格的某些部分例如 TR 或 TD 这应该取决于从数据库获取的数据我在我的应用程序中使用 CakePHP 框架并使用单个视图文件进行添加和编辑在编辑模式下根据获取的数据我需要显示和隐
更改的默认按钮标签

我在用
如何使用 msw 有条件地模拟错误响应

我正在处理的 UI 根据收到的响应以不同的方式呈现我想测试用户界面4xx and 5xx收到答复我的 api 处理程序看起来像 import rest from msw import items from apiValues expor
如何基于Scrapy构建一个永远运行的网络爬虫？

我想基于Scrapy构建一个网络爬虫从多个新闻门户网站抓取新闻图片我希望这个爬虫是永远奔跑意味着它将定期重新访问一些门户页面以获取更新安排优先事项为不同类型的 URL 赋予不同的优先级多线程获取我已经阅读了Scrapy文档

如何基于Scrapy构建一个永远运行的网络爬虫？

如何基于Scrapy构建一个永远运行的网络爬虫？ 的相关文章

随机推荐

热门标签

如何基于Scrapy构建一个永远运行的网络爬虫？的相关文章