我有一个网络爬行 python 脚本,需要几个小时才能完成,并且无法在我的本地计算机上完整运行。有没有一种方便的方法可以将其部署到简单的 Web 服务器?该脚本基本上将网页下载到文本文件中。如何最好地实现这一点?
谢谢!
既然你说性能是一个问题并且你正在进行网络抓取,那么首先要尝试的是Scrapy http://scrapy.org/框架 - 这是一个非常快速且易于使用的网络抓取框架。scrapyd http://scrapyd.readthedocs.org/en/latest/工具将允许您分发爬行 - 您可以有多个scrapyd
服务运行在不同的服务器上,并在每个服务器之间分配负载。看:
- 分布式抓取 http://doc.scrapy.org/en/latest/topics/practices.html#distributed-crawls
- 在 Amazon EC2 上运行 Scrapy http://seminar.io/2013/03/26/running-scrapy-on-amazon-ec2/
还有一个Scrapy Cloud http://scrapinghub.com/scrapy-cloud那里的服务:
Scrapy Cloud 搭建高效Scrapy开发的桥梁
环境具有强大的、功能齐全的生产环境
部署并运行您的爬网。它就像 Scrapy 的 Heroku,不过
其他技术将在不久的将来得到支持。它运行于
Scrapinghub 平台的顶部,这意味着您的项目可以扩展
需求,根据需要。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)