在 scrapy 中运行多个蜘蛛

2023-11-21

  1. 例如,在 scrapy 中,如果我有两个包含不同 HTML 的 URL。现在我想分别编写两个单独的蜘蛛,并希望同时运行这两个蜘蛛。在 scrapy 中可以同时运行多个蜘蛛。

  2. 在scrapy中编写多个蜘蛛后,我们如何安排它们每6小时运行一次(可能就像cron作业)

我对上述内容一无所知,您能否通过示例建议我如何执行上述操作。

提前致谢。


您可以尝试使用CrawlerProcess

from scrapy.utils.project import get_project_settings
from scrapy.crawler import CrawlerProcess

from myproject.spiders import spider1, spider2

1Spider = spider1.1Spider()
2Spider = spider2.2Spider()
process = CrawlerProcess(get_project_settings())
process.crawl(1Spider)
process.crawl(2Spider)
process.start()

如果您想查看爬行的完整日志,请设置LOG_FILE在你的settings.py.

LOG_FILE = "logs/mylog.log"
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 scrapy 中运行多个蜘蛛 的相关文章

随机推荐

  • 比 double 更精确的浮点数据类型?

    在我的项目中 我必须在矩阵上计算除法 乘法 减法 加法double元素 问题是 当矩阵的大小增加时 我的输出的准确性会受到极大影响 目前我正在使用double对于我认为使用的每个元素8 bytes的记忆力和准确度16 digits与小数点位
  • Selenium 如何点击 50% 在屏幕上和 50% 不在屏幕上的元素?

    有一个 div 元素 其大小的 50 在屏幕上 另外 50 超出屏幕高度并且不可见 无法滚动 我尝试使用 Selenium 进行自动化测试并单击该 div 元素 但有时它有效 有时则无效 为什么 Selenium 不直接点击该 div 的
  • NHIbernate OR 标准查询

    我有以下映射类 Trade ID AccountFrom AccountTo Account ID Company Company ID 现在我无法找到一种方法来选择所有交易 AccountFrom Company ID X OR Acco
  • 我应该使用 django-gunicorn 集成还是 wsgi?

    我正在使用gunicorn django 设置一个网络服务器 有两种部署选项 使用常规 WSGI 或使用gunicorn 的 django 集成 我很想使用后者 因为它简化了配置 但是Django 文档说 If you are using
  • PhoneGap Eclipse 问题 - eglCodecCommon glUtilsParamSize:未知参数错误

    我刚刚开始使用phonegap 并尝试在eclipse 中设置第一个基本的最小项目 我按照以下位置的phonegap文档进行操作http docs phonegap com en edge guide platforms android i
  • MySQL InnoDB 不同数据库之间的外键

    我想知道在 InnoDB 中是否可以MySQL有一个table with 外键引用不同的另一个表database 如果是这样 如何做到这一点 我没有看到任何限制https dev mysql com doc refman 8 0 en cr
  • Django-Celery 正在生产中吗?

    所以我一直在试图弄清楚如何制定计划任务 我找到了 Celery 并且能够制定简单的计划任务 为此 我需要打开命令行并运行celery A proj beat为了任务的发生 这在开发环境中工作得很好 但是当将其投入生产时 这将是一个问题 那么
  • 从 64 位整数秒计数创建 boost::posix_time::ptime 对象

    我有一个 32 位 Linux 系统 在其中我必须记录时间戳为距 1901 01 01 00 00 00 的 UINT32 秒偏移量的数据 计算时间戳对我来说没问题 因为我可以使用 64 位ticks 计数器和ticks per secon
  • 使用 matplotlib 添加自定义刻度

    我想在matplotlib数字 目前 我使用以下命令添加刻度 例如 axis set yticks 0 5 0 6 0 7 0 8 0 9 1 0 我希望能够做到 axis set yticks 1 0 some custom text 所
  • Grails 2.x createCriteria 'or' 不适用于嵌套关联

    似乎在 Grails 2 x 中 如果您有一个域类关联 并且您尝试使用以下命令运行 createCriteriaor在该关系 另一个查询上 or将忽略其他查询并仅使用嵌套关联的结果 我意识到这可能有点令人困惑 所以这里是一个例子 class
  • SQLite更新触发器更改表中的所有行

    问题 最简单的更新触发器将新值写入所有表行 而不仅仅是正在更新的行 这是表格 names id INTEGER PRIMARY KEY name TEXT len INTEGER 现在我想创建触发器来用 name 的长度更新 len 这个
  • Selenium Webdriver:元素不可见异常

    这是我的代码 用于单击一个简单的登录按钮Website import java util concurrent TimeUnit import org openqa selenium By import org openqa seleniu
  • UIAccessibility 元素的自定义 UITableViewCell 问题

    无论我尝试什么 我都无法阻止我的自定义 UITableViewCell 发挥作用就像应该的那样根据 UIAccessiblity 的默认规则 我不希望这个单元格充当可访问性容器 本身 所以遵循这个guide我应该能够使我的所有子视图都可访问
  • 宽度和高度会随方向变化吗?

    所以我的游戏从垂直方向开始 然后最终进入水平方向 我知道屏幕的宽度是屏幕的宽度 与垂直方向时的高度相同 当它切换到水平方向时 高度会变成宽度 宽度会变成高度吗 或者它们保持不变 是的 屏幕宽度和高度会根据设备方向而变化 您可以使用以下命令获
  • 如何在 C# 中将 UTC 时间转换为任何其他时区的时间

    我正在 C net 中工作 Net fx 是 2 0 不支持不同时区之间的转换 我已经编写了一个基于 UTC 的调度程序 但它在伦敦的 DTS 周期中给出了 1 小时的错误 我需要一些解决方案 以便我可以通过正确的 DST 调整来获得相对于
  • 将 int 转换为 4 字节 char 数组 (C)

    嘿 我希望将用户输入的 int 转换为 4 个字节 并将其分配给字符数组 如何才能做到这一点 Example 将用户输入 175 转换为 00000000 00000000 00000000 10101111 到目前为止所有答案都有问题 转
  • 查看单个文档中单个字段的原始 Solr 标记

    我正在调试我的 Solr 架构 我想查看标记特定字段的结果 举一个简化的例子 如果我有
  • sudo E选项不起作用? [关闭]

    Closed 这个问题不符合堆栈溢出指南 目前不接受答案 在我看来 如果我写一个shell脚本 HOME path to script myscript and export PATH PATH HOME path to script th
  • 在单活动架构中设置片段的横向方向

    如何实现只锁定一个屏幕方向Fragment 在单活动架构中 只有一个Activity对于整个应用程序 有没有比在每个中指定请求的方向更好的解决方案Fragment 我试图避免放置activity requestedOrientation A
  • 在 scrapy 中运行多个蜘蛛

    例如 在 scrapy 中 如果我有两个包含不同 HTML 的 URL 现在我想分别编写两个单独的蜘蛛 并希望同时运行这两个蜘蛛 在 scrapy 中可以同时运行多个蜘蛛 在scrapy中编写多个蜘蛛后 我们如何安排它们每6小时运行一次 可