假设我浏览到一个需要登录才能访问内容的网站(也在 Intranet 上)。我将填写必填字段...例如从浏览器本身登录所需的用户名、密码和任何验证码等。
登录该网站后,可以从登录后第一页上的多个链接和选项卡中抓取很多好东西。
现在,从现在开始(即从浏览器登录后)..我想控制页面并从 urllib2 下载...例如逐页浏览,下载每个页面上的 pdf 和图像等。
我知道我们可以直接使用 urllib2 (或 mechanize)中的所有内容(即登录页面并完成整个操作)。
但是,对于某些网站.. 浏览并找出登录机制、所需的隐藏参数、引荐来源网址确实很痛苦captcha、cookie 和弹出窗口。
请指教。希望我的问题有意义。
总之,我希望使用网络浏览器手动完成初始登录部分...然后接管通过 urllib2 进行抓取的自动化。
你有没有考虑过Selenium?它是关于浏览器自动化而不是 http 请求 (urllib2),并且您可以在步骤之间操作浏览器。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)