我需要编写一个程序来抓取论坛。
我应该使用 Scrapy 框架用 Python 编写程序还是应该使用 Php cURL?
还有与 Scrapy 相当的 Php 吗?
Thanks
我会选择 Python,因为它具有卓越的 libxml2 绑定,特别是诸如lxml.html http://codespeak.net/lxml/lxmlhtml.html and pyQuery http://pyquery.org/。 Scrapy 有它自己的 libxml2 绑定,我还没有查看它们来测试它们,尽管浏览 Scrapy 文档并没有给我留下深刻的印象(我只是使用这些解析器和手动编码完成了大量的抓取工作)。使用这些中的任何一个,您都可以获得真正卓越的 HTML 解析器,通过 XPath 进行查询,并且使用 lxml.html 和 pyquery(也基于 lxml 构建),您可以获得 CSS 选择器。
如果你正在做一个抓取论坛的小工作,我会跳过抓取框架,而只是手工完成——这很容易,并且并行化等并不是真正需要的。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)