Scrapy - 使用 TwistedScheduler 时出现 ReactorAlreadyInstalledError

2024-05-16

我有以下 Python 代码来启动 APScheduler/TwistedScheduler cronjob 来启动蜘蛛。

使用一只蜘蛛不是问题，而且效果很好。然而，使用两个蜘蛛会导致错误：twisted.internet.error.ReactorAlreadyInstalledError: reactor already installed.

我确实找到了一个相关问题 https://stackoverflow.com/questions/71548957/twisted-internet-error-reactoralreadyinstallederror-reactor-already-installed, using CrawlerRunner作为解决方案。但是，我正在使用 TwistedScheduler 对象，所以我不知道如何使用多个 cron 作业（多个add_job()).

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from apscheduler.schedulers.twisted import TwistedScheduler

from myprojectscraper.spiders.my_homepage_spider import MyHomepageSpider
from myprojectscraper.spiders.my_spider import MySpider

process = CrawlerProcess(get_project_settings())
# Start the crawler in a scheduler
scheduler = TwistedScheduler(timezone="Europe/Amsterdam")
# Use cron job; runs the 'homepage' spider every 4 hours (eg. 12:10, 16:10, 20:10, etc.)
scheduler.add_job(process.crawl, 'cron', args=[MyHomepageSpider], hour='*/4', minute=10)
# Use cron job; runs the full spider every week on the monday, tuesday and saturday at 4:35 midnight
scheduler.add_job(process.crawl, 'cron', args=[MySpider], day_of_week='mon,thu,sat', hour=4, minute=35)
scheduler.start()
process.start(False)

https://docs.scrapy.org/en/latest/topics/practices.html#run-scrapy-from-a-script https://docs.scrapy.org/en/latest/topics/practices.html#run-scrapy-from-a-script

还有另一个 Scrapy 实用程序可以对爬行过程提供更多控制：scrapy.crawler.CrawlerRunner。这个类是一个薄包装器，封装了一些简单的帮助器来运行多个爬虫，但它不会以任何方式启动或干扰现有的反应器。
如果您的应用程序已经在使用 Twisted 并且您想在同一个反应器中运行 Scrapy，建议您使用 CrawlerRunner 而不是 CrawlerProcess。

https://docs.scrapy.org/en/latest/topics/practices.html#running-multiple-spiders-in-the-same-process https://docs.scrapy.org/en/latest/topics/practices.html#running-multiple-spiders-in-the-same-process

默认情况下，当您运行 scrapycrapy 时，Scrapy 为每个进程运行一个蜘蛛。然而，Scrapy 支持使用内部 API 在每个进程运行多个蜘蛛。


from scrapy.crawler import CrawlerRunner
from scrapy.utils.project import get_project_settings
from scrapy.utils.log import configure_logging
from twisted.internet import reactor
from apscheduler.schedulers.twisted import TwistedScheduler

from myprojectscraper.spiders.my_homepage_spider import MyHomepageSpider
from myprojectscraper.spiders.my_spider import MySpider

configure_logging()

runner = CrawlerRunner(get_project_settings())
scheduler = TwistedScheduler(timezone="Europe/Amsterdam")
# Use cron job; runs the 'homepage' spider every 4 hours (eg. 12:10, 16:10, 20:10, etc.)
scheduler.add_job(runner.crawl, 'cron', args=[MyHomepageSpider], hour='*/4', minute=10)
# Use cron job; runs the full spider every week on the monday, tuesday and saturday at 4:35 midnight
scheduler.add_job(runner.crawl, 'cron', args=[MySpider], day_of_week='mon,thu,sat', hour=4, minute=35)

deferred = runner.join()
deferred.addBoth(lambda _: reactor.stop())

scheduler.start()
reactor.run()  # the script will block here until all crawling jobs are finished
scheduler.shutdown()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy - 使用 TwistedScheduler 时出现 ReactorAlreadyInstalledError 的相关文章

如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

AngularJS 更改一个控制器中的模型值会触发其他控制器中的模型更新

EDIT 好吧我更新了示例以避免循环问题所以回到原来的问题它仍然会重新计算 B 模型对象在这个例子中 http jsfiddle net qn2Wa http jsfiddle net qn2Wa div div div div
使用 jQuery 更改 CSS 类属性

有没有办法使用 jQuery 更改 CSS 类的属性而不是元素属性这是一个实际的例子我有一个 div 类red red background red 我想转班级red背景属性而不是具有类的元素red分配的背景如果我用 jQuery
页面完全加载后如何执行函数？

当页面完全加载时我需要执行一些 JavaScript 代码这包括图像之类的东西我知道你可以检查 DOM 是否准备好但我不知道这是否与页面完全加载时相同这就是所谓的load 它是在 DOM Ready 出现之前就出现的而 DOM
在单个 mongodb 查询中查找并计数

我的文档看起来像这样 id ObjectId 572c4bffd073dd581edae045 name What s New in PHP 7 description PHP 7 is the first new major versio
SQL 按计数排序

如果我有一个表和这样的数据 ID Name Group 1 Apple A 2 Boy A 3 Cat B 4 Dog C 5 Elep C 6 Fish C 我希望根据 Group 的总和从小到大进行排序例如 A 2条记录 B 1条记录
Visual Studio 2010 调试器不会在断点处停止？

我在计算机 Windows 7 64 位上使用 Visual Studio 2010 时遇到问题我正在为 Outlook 做一个 C 插件我可以将其添加到 Outlook 上尝试一下但无法调试它因为调试器不会在断点处停止我在谷
保存来自 TrueDepth 相机的深度图像

我正在尝试保存 iPhone X TrueDepth 相机的深度图像使用AVCam照片滤镜 https developer apple com library content samplecode AVCamPhotoFilter Lis
WP7：将参数传递到新页面？

在 Windows Phone 7 Silverlight 应用程序中我使用以下命令调用新页面 NavigationService Navigate new Uri View SecondPage xaml UriKind Relativ
安装 Windows 服务时的凭据

我正在尝试使用 VisualStudio Net 部署项目安装 C Windows 服务项目要运行部署项目我右键单击并从上下文菜单中选择安装安装向导将运行并最终提示我出现设置服务登录对话框要求输入用户名和密码当我从命令行使用
Class()、new Class 和 new Class() 之间的区别

两者有什么区别Class and new Class new Class 我做了一个测试后者似乎更快 http jsperf com object initilzation http jsperf com object initilzat
无论如何要抓取重定向的链接吗？

无论如何我可以让 python 单击一个链接例如 bit ly 链接然后抓取生成的链接吗当我抓取某个页面时我唯一可以抓取的链接是重定向的链接它重定向到的位置就是我需要的信息所在的位置重定向有 3 种类型 HTTP 作为响应标头
如何从 ruby 中的字符串名称创建类实例？

我有一个类的名称我想创建该类的一个实例以便我可以循环该类的架构中存在的每个 Rails 属性我该怎么做呢我的名称是我想要检查的类的字符串我想我需要实例化一个类实例以便我可以循环遍历它的属性并打印它们在 Rails 中你可以这
如何在包含 Django 模板标记的文件上运行 JSHint？

我想在所有 Javascript 源文件上运行 JSHint 但其中一些源文件具有一些嵌入式 Django 模板标记 JSHint 在此标记上引发大量错误有没有办法可以告诉 JSHint 忽略此标记使用一些虚拟数据运行 Django
如何拆分二维数组，从“行到行”值创建数组

我想这样分割二维数组 Example 从这个 4x4 2D 数组 np array 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 创建这四个 2x2 2D 数组 np array 1 2 3 4 np arr
编译器如何实现位域运算？

当询问如何做的问题时包裹 N 位有符号减法 https stackoverflow com questions 8309538 integer subtraction with wrap around for n bits我得到了以下答案
使用 Quartz 创建 PDF 注释 (iOS)

有人设法使用 Quartz 在现有 PDF 中编写自定义注释吗我已经使用 CGPDFDocumentRef 等渲染了 PDF 现在工作正常我成功地阅读了 Annots 字典 if CGPDFDictionaryGetArray page
Highcharts - 使用选定的饼图切片获得 3D 效果

在 highcharts 中我试图使当用户选择或将鼠标悬停在饼图的切片上时该切片会产生沿 z 轴朝向用户上升的效果我试图通过 css 设置阴影过滤器并使切片的边框更宽填充颜色相同来实现此目的然而我面临的问题是切片仍然可以位
Apache Camel POJO Bean 处理器单例还是原型？

我使用 Camel 的 spring DSL 来构建路由并使用 POJO bean 作为处理器最初我这样做
Node.js：读取 URL 中传递的参数

在 Rails 中我向服务器发出 POST 请求 response Typhoeus Request post http url localtunnel com request from ola to ole result JSON pa
Scrapy - 使用 TwistedScheduler 时出现 ReactorAlreadyInstalledError

我有以下 Python 代码来启动 APScheduler TwistedScheduler cronjob 来启动蜘蛛使用一只蜘蛛不是问题而且效果很好然而使用两个蜘蛛会导致错误 twisted internet error Rea

Scrapy - 使用 TwistedScheduler 时出现 ReactorAlreadyInstalledError

Scrapy - 使用 TwistedScheduler 时出现 ReactorAlreadyInstalledError 的相关文章

随机推荐

热门标签