我正在尝试用 scrapy 抓取此页面:
http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=7391
我得到的响应与我在浏览器中看到的不同。浏览器响应有正确的页面,而 scrapy 响应是:
http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=1
页。我已经尝试过 urllib2 但仍然有同样的问题。任何帮助深表感谢。
我不太明白这个问题,但通常浏览器和 scrapy 的不同响应是由以下之一引起的:
- 服务器分析你的
User-Agent
标头,并返回为移动客户端或机器人特制的页面;
- 服务器分析 cookie,并在您第一次访问时执行一些特殊操作;
- 您正在尝试像浏览器一样通过 scrapy 发出 POST 请求,但是您忘记了一些表单字段,或者输入了错误的值
- etc.
没有通用的方法来确定问题所在,因为它取决于您不知道的服务器逻辑。如果幸运的话,您将分析并解决所有提到的问题并使其发挥作用。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)