例如,在 scrapy 中,如果我有两个包含不同 HTML 的 URL。现在我想分别编写两个单独的蜘蛛,并希望同时运行这两个蜘蛛。在 scrapy 中可以同时运行多个蜘蛛。
在scrapy中编写多个蜘蛛后,我们如何安排它们每6小时运行一次(可能就像cron作业)
我对上述内容一无所知,您能否通过示例建议我如何执行上述操作。
提前致谢。
您可以尝试使用CrawlerProcess
from scrapy.utils.project import get_project_settings
from scrapy.crawler import CrawlerProcess
from myproject.spiders import spider1, spider2
1Spider = spider1.1Spider()
2Spider = spider2.2Spider()
process = CrawlerProcess(get_project_settings())
process.crawl(1Spider)
process.crawl(2Spider)
process.start()
如果您想查看爬行的完整日志,请设置LOG_FILE
在你的settings.py
.
LOG_FILE = "logs/mylog.log"
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)