为什么要学习Splash?
我们经常使用scrapy框架编写爬虫代码,站在巨人的肩膀上感觉很好,但是一旦遇到网站用JavaScript动态渲染,scrapy就显得有些力不从心了,我们了解的selenium可以完成动态加载,返回浏览器渲染后的页面,今天我们不讲selenium,Scrapy-Splash(是一个Scrapy中支持JavaScript渲染的工具)同样可以完成这件事,下面我们来说说Splash如何与Scrapy进行对接。
官方文档:https://splash.readthedocs.io/en/stable/
准备工作
Linux + Docker
- Install Docker
- Pull the image:
sudo docker pull scrapinghub/splash
sudo docker run -it -p 8050:8050 scrapinghub/splash
OS X + Docker
docker pull scrapinghub/splash
docker run -it -p 8050:8050 scrapinghub/splash
运行完毕后在浏览器中打开地址:http://0.0.0.0:8050 出现如下界面
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190407153548467.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0xpanVoYW9fYmxvZw==,size_16,color_FFFFFF,t_70)
安装scrapy-splash
pip3 install scrapy-s