在 scrapy 中运行多个蜘蛛

2023-11-21

例如，在 scrapy 中，如果我有两个包含不同 HTML 的 URL。现在我想分别编写两个单独的蜘蛛，并希望同时运行这两个蜘蛛。在 scrapy 中可以同时运行多个蜘蛛。
在scrapy中编写多个蜘蛛后，我们如何安排它们每6小时运行一次（可能就像cron作业）

我对上述内容一无所知，您能否通过示例建议我如何执行上述操作。

提前致谢。

您可以尝试使用CrawlerProcess

from scrapy.utils.project import get_project_settings
from scrapy.crawler import CrawlerProcess

from myproject.spiders import spider1, spider2

1Spider = spider1.1Spider()
2Spider = spider2.2Spider()
process = CrawlerProcess(get_project_settings())
process.crawl(1Spider)
process.crawl(2Spider)
process.start()

如果您想查看爬行的完整日志，请设置LOG_FILE在你的settings.py.

LOG_FILE = "logs/mylog.log"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

webcrawler

在 scrapy 中运行多个蜘蛛的相关文章

Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

比 double 更精确的浮点数据类型？

在我的项目中我必须在矩阵上计算除法乘法减法加法double元素问题是当矩阵的大小增加时我的输出的准确性会受到极大影响目前我正在使用double对于我认为使用的每个元素8 bytes的记忆力和准确度16 digits与小数点位
Selenium 如何点击 50% 在屏幕上和 50% 不在屏幕上的元素？

有一个 div 元素其大小的 50 在屏幕上另外 50 超出屏幕高度并且不可见无法滚动我尝试使用 Selenium 进行自动化测试并单击该 div 元素但有时它有效有时则无效为什么 Selenium 不直接点击该 div 的
NHIbernate OR 标准查询

我有以下映射类 Trade ID AccountFrom AccountTo Account ID Company Company ID 现在我无法找到一种方法来选择所有交易 AccountFrom Company ID X OR Acco
我应该使用 django-gunicorn 集成还是 wsgi？

我正在使用gunicorn django 设置一个网络服务器有两种部署选项使用常规 WSGI 或使用gunicorn 的 django 集成我很想使用后者因为它简化了配置但是Django 文档说 If you are using
PhoneGap Eclipse 问题 - eglCodecCommon glUtilsParamSize：未知参数错误

我刚刚开始使用phonegap 并尝试在eclipse 中设置第一个基本的最小项目我按照以下位置的phonegap文档进行操作http docs phonegap com en edge guide platforms android i
MySQL InnoDB 不同数据库之间的外键

我想知道在 InnoDB 中是否可以MySQL有一个table with 外键引用不同的另一个表database 如果是这样如何做到这一点我没有看到任何限制https dev mysql com doc refman 8 0 en cr
Django-Celery 正在生产中吗？

所以我一直在试图弄清楚如何制定计划任务我找到了 Celery 并且能够制定简单的计划任务为此我需要打开命令行并运行celery A proj beat为了任务的发生这在开发环境中工作得很好但是当将其投入生产时这将是一个问题那么
从 64 位整数秒计数创建 boost::posix_time::ptime 对象

我有一个 32 位 Linux 系统在其中我必须记录时间戳为距 1901 01 01 00 00 00 的 UINT32 秒偏移量的数据计算时间戳对我来说没问题因为我可以使用 64 位ticks 计数器和ticks per secon
使用 matplotlib 添加自定义刻度

我想在matplotlib数字目前我使用以下命令添加刻度例如 axis set yticks 0 5 0 6 0 7 0 8 0 9 1 0 我希望能够做到 axis set yticks 1 0 some custom text 所
Grails 2.x createCriteria 'or' 不适用于嵌套关联

似乎在 Grails 2 x 中如果您有一个域类关联并且您尝试使用以下命令运行 createCriteriaor在该关系另一个查询上 or将忽略其他查询并仅使用嵌套关联的结果我意识到这可能有点令人困惑所以这里是一个例子 class
SQLite更新触发器更改表中的所有行

问题最简单的更新触发器将新值写入所有表行而不仅仅是正在更新的行这是表格 names id INTEGER PRIMARY KEY name TEXT len INTEGER 现在我想创建触发器来用 name 的长度更新 len 这个
Selenium Webdriver：元素不可见异常

这是我的代码用于单击一个简单的登录按钮Website import java util concurrent TimeUnit import org openqa selenium By import org openqa seleniu
UIAccessibility 元素的自定义 UITableViewCell 问题

无论我尝试什么我都无法阻止我的自定义 UITableViewCell 发挥作用就像应该的那样根据 UIAccessiblity 的默认规则我不希望这个单元格充当可访问性容器本身所以遵循这个guide我应该能够使我的所有子视图都可访问
宽度和高度会随方向变化吗？

所以我的游戏从垂直方向开始然后最终进入水平方向我知道屏幕的宽度是屏幕的宽度与垂直方向时的高度相同当它切换到水平方向时高度会变成宽度宽度会变成高度吗或者它们保持不变是的屏幕宽度和高度会根据设备方向而变化您可以使用以下命令获
如何在 C# 中将 UTC 时间转换为任何其他时区的时间

我正在 C net 中工作 Net fx 是 2 0 不支持不同时区之间的转换我已经编写了一个基于 UTC 的调度程序但它在伦敦的 DTS 周期中给出了 1 小时的错误我需要一些解决方案以便我可以通过正确的 DST 调整来获得相对于
将 int 转换为 4 字节 char 数组 (C)

嘿我希望将用户输入的 int 转换为 4 个字节并将其分配给字符数组如何才能做到这一点 Example 将用户输入 175 转换为 00000000 00000000 00000000 10101111 到目前为止所有答案都有问题转
查看单个文档中单个字段的原始 Solr 标记

我正在调试我的 Solr 架构我想查看标记特定字段的结果举一个简化的例子如果我有
sudo E选项不起作用？ [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案在我看来如果我写一个shell脚本 HOME path to script myscript and export PATH PATH HOME path to script th
在单活动架构中设置片段的横向方向

如何实现只锁定一个屏幕方向Fragment 在单活动架构中只有一个Activity对于整个应用程序有没有比在每个中指定请求的方向更好的解决方案Fragment 我试图避免放置activity requestedOrientation A
在 scrapy 中运行多个蜘蛛

例如在 scrapy 中如果我有两个包含不同 HTML 的 URL 现在我想分别编写两个单独的蜘蛛并希望同时运行这两个蜘蛛在 scrapy 中可以同时运行多个蜘蛛在scrapy中编写多个蜘蛛后我们如何安排它们每6小时运行一次可

在 scrapy 中运行多个蜘蛛

在 scrapy 中运行多个蜘蛛 的相关文章

随机推荐

热门标签

在 scrapy 中运行多个蜘蛛的相关文章