Python - 手动浏览器登录后从 urllib2 恢复 Web 会话

2023-12-05

假设我浏览到一个需要登录才能访问内容的网站（也在 Intranet 上）。我将填写必填字段...例如从浏览器本身登录所需的用户名、密码和任何验证码等。

登录该网站后，可以从登录后第一页上的多个链接和选项卡中抓取很多好东西。

现在，从现在开始（即从浏览器登录后）..我想控制页面并从 urllib2 下载...例如逐页浏览，下载每个页面上的 pdf 和图像等。

我知道我们可以直接使用 urllib2 （或 mechanize）中的所有内容（即登录页面并完成整个操作）。

但是，对于某些网站.. 浏览并找出登录机制、所需的隐藏参数、引荐来源网址确实很痛苦captcha、cookie 和弹出窗口。

请指教。希望我的问题有意义。

总之，我希望使用网络浏览器手动完成初始登录部分...然后接管通过 urllib2 进行抓取的自动化。

你有没有考虑过Selenium？它是关于浏览器自动化而不是 http 请求 (urllib2)，并且您可以在步骤之间操作浏览器。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Browser

authentication

webscraping

Python - 手动浏览器登录后从 urllib2 恢复 Web 会话的相关文章

SQLAlchemy 关系错误：对象没有属性“c”

I used sql自动编码 https code google com p sqlautocode 生成我的模型和所有关系我正在尝试做一个简单的查询例如 obj session query Venue filter Venue sym
如何使用 Python 和 Selenium WebDriver 获取 localStorage

相当于什么 driver get cookies 获取 LocalStorage 而不是 ookies python API没有提供直接读写本地存储的方法但可以通过execute script class LocalStorage de
Django管理命令是在单独的进程中执行的吗？

Django 有很多管理命令此外我们还可以编写自己的命令进行 shell 调用后会发生什么python manage py XXX 代码是否会在从 shell 启动的进程中执行或者 shell 进程只是与执行命令的主 Django
会话cookie太大烧瓶应用程序[重复]

这个问题在这里已经有答案了我正在尝试使用会话本地加载某些数据并且它已经工作了一段时间但是现在我收到以下警告并且不再加载通过会话加载的数据 b session cookie 太大该值是 13083 字节但是标头需要 44 个
time.sleep - TypeError：需要一个浮点[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案 time sleep 2 TypeError a float is required 我该如何解决我不确定我应该在这里做什么您
如何检查Docker中是否安装了python包？

我使用Dockerfile成功构建了一个容器但是我的代码在容器中不起作用如果我手动安装所有软件包它确实有效我假设我搞砸了一些导致 docker 没有正确安装软件包的事情所以我想检查Docker容器中是否安装了python包最
Pandas系列矢量化文本处理

我想使用矢量化操作改进我的 Pandas 代码假设我有一个简单的 DataFrame 其中有一个文本列其中可能包含 url Column1 0 hello http www google com 1 bye www mail com w
带剖面的 3D 曲面图

基本上我有一个由一组时间序列组成的曲面图我想在特定高度添加剖面图以更好地了解一年中值高于所选阈值的时期由此其中显示平面但不是剖面 To This 有什么建议吗使用 alpha 和相机仰角并没有解决问题平面似乎仍然在人物的前面
如何在 matplotlib 图中禁用 xkcd？

您可以通过以下方式打开 xkcd 风格 import matplotlib pyplot as plt plt xkcd 但如何禁用它呢 I try self fig clf 但这行不通简而言之要么使用 Valentin 提到的上下文管
While 在范围内循环用户输入

我有一些代码我想要求用户输入 1 100 之间的数字如果他们在这些数字之间输入一个数字它将打印 Size input 并打破循环但是如果他们在外部输入一个数字1 100 它将打印大小输入并继续向他们重新询问一个数字但我遇到
Pythonwinsound，ASYNC 标志不起作用？

我正在使用 python 3 5 我试图在继续执行脚本的同时播放声音根据https docs python org 3 5 library winsound html https docs python org 3 5 library w
django 密码重置功能中出现 NoReverseMatch 错误

我正在尝试在 django 中实现密码重置功能下面是我的代码 urls py urlpatterns patterns url r signup accounts views signup name signup email url r
.NET 是否有相当于 Python 中的 **kwargs 的功能？

我一直无法通过典型渠道找到这个问题的答案在Python中我可以有以下函数定义 def do the needful kwargs Kwargs is now a dictionary i e do the needful spam 42
如何在Python中的字符串中插入变量值

这是一个简单的例子 amount1 input Insert your value amount2 input Insert your value print Your first value is amount1 your second
python 3 configparser.read() 在给定不存在的文件时不会引发异常

当我尝试使用 configparser read 读取不存在的文件时我认为它应该引发异常事实并非如此它返回一个空列表显然我可以测试空列表并引发异常在我看来如果 configparser read 引发 FileNotFound
Python - 根据条件调用函数

我想知道是否有一种简洁的方法来根据条件调用函数我有这个 if list 1 some dataframe df myfunction 我想知道这是否有可能三元运算符 http book pythontips com en latest t
当输入是 DataFrame 时，在seaborn中对箱线图进行分组

我打算在一个图中绘制多个列pandas dataframe 全部按另一列分组使用groupby inside seaborn boxplot 对于类似的问题这里有一个很好的答案matplotlib matplotlib 分组箱线图 ht
在 Django 中删除特定用户的所有会话的最优化方法？

我正在运行 Django 1 3 使用会话中间件和身份验证中间件 settings py SESSION ENGINE django contrib sessions backends db Persist sessions to DB S
通过 Selenium 和 python 切换到 iframe

我如何在硒中切换到这个 iframe 只知道您可以使用 XPath 来定位 iframe driver find element by xpath iframe name Dialogue Window Then switch to th
Pandas 数据透视表同时包含多列

我怀疑是否pandas pivot table可以一次接受两列并单独处理它们而不是分层处理假设我有以下数据框 id date day val 101 11 1 1 1 2 1 101 11 1 2 2 2 2 101 11 1 3 3

随机推荐

无法创建实体数据模型 - 使用 MySql 和 EF6

我正在尝试将 edmx 实体模型添加到 Visual Studio 2013 中的 C Web 项目我的问题是未创建该文件我执行以下步骤给该项目一个名称选择来自数据库的 EF 设计器从下拉列表中选择已测试成功连接到 MySQL
静态内联、外部内联和普通内联函数有什么区别？

和有什么区别static inline extern inline和一个正常的inline功能我看到过一些对此的模糊解释据我了解 static inline不只是一个inline函数仅在某个文件中被称为static关键字通常意味着同样
php的socket连接代码

我正在编写一个简单的 php 套接字代码这是我的代码
如何对长字符串执行 preg_replace

我希望能够找到并替换一长行 JavaScript 代码代码中也有很多和这可能吗您可以手动修改限制以便 PHP 将允许您处理非常长的字符串在调用 preg replace 之前将以下行放在某处 ini set pcre backt
从 swingWorker 处理框架

实际上我已经从框架假设 A 中调用了 Swing Worker 在 do in Background 方法中的 Swing Worker 类中我有某些数据库查询并且我也调用了 Frame B 在 did 方法中但是我想要处置框架 A 我
使用动态表达式 API 选择匿名类型

我正在使用动态表达式 API System Linq Dynamic 与 LINQ to Entities 我的 LINQ 查询如下 var query this db Products AsQueryable Where strCondi
任务第二次未完成[间歇性问题] – 异步/等待

我有一个WebBrowser控件是Windows窗体项目它会浏览 MyTableTest html 中所有可用的 URL 此页面中有四个 URL 网络浏览器会逐一浏览每个 URL 一旦到达最后一个它应该再次转到第一个它在第一次迭代中工
如何通过 C# 或 C++ 获取真实日期（不是系统日期）？

是否可以在不连接互联网的情况下获取真实日期不是系统日期我用 C 开发了我的应用程序 DateTime Now 获取系统日期但我想知道真实日期因为系统日期可能是错误的是否可以这个怎么做如果系统日期错误那么您的应用程序必须从其他
与 webpack 捆绑后无法导入模块

我有以下 index js 代码 import Asp from src asp js export default Asp 以及以下 run js 代码 import Asp from dist bundle js Uncaught Sy
获取 java.lang.IllegalArgumentException：非法模式字符“o”？解析 java.text.SimpleDateFormat 时

我想从字符串转换为 java util Date 出于同样的目的我使用了以下代码 String timeStamp Mon Feb 14 18 15 39 IST 2011 DateFormat formatter new SimpleD
UIActivityViewController，在为 iOS 7.x 编译时在设备 8.x 上无法同时满足约束

我有一个UIActivityViewController显示在UIViewController 此处命名为 viewCon items contains text and or image UIActivityViewController
Powershell在FOR循环期间读取特定列的每个值

已经看到这个网址如何使用 powershell 读取 CSV 文件的第一列也就是说我想要完成的是包含 2 列的 CSV 文件我需要读取第一列的值并邮寄到第二列 CSV 示例 Item Email A300 email protecte
选择原则 2 中日期之间的条目

我会因为这个我无法修复的最小错误而发疯我想选择两天之间的条目下面的示例说明了我所有的失败 opt 1 qb gt where e fecha gt monday gt format Y m d qb gt andWhere e fech
C中的多个空格替换为单个空格

我想用单个空格替换字符串中的多个空格但是我的以下代码不起作用逻辑错误是什么 include
如何将 ArrayList 绑定到 Oracle 中的PreparedStatement？

我想知道是否有一种方法可以将 ArrayList 或任何类型的 List 绑定到最终将用于访问 Oracle 数据库的PreparedStatement 我发现 PreparedStatement IN 子句替代方案这似乎与我的问题类似
Azure Cosmos Gremlin API：事务和高效的图形遍历

我们正在试验 Cosmos Gremlin API 因为我们正在构建一个自然适合图数据库的大规模知识管理系统知识项是高度互连的因此图比关系或面向文档分层结构要好得多我们需要原子写入操作不是完整的事务支持只是原子写入例如我们
Solr 4 具有基本身份验证

我正在尝试使用 solrj 连接到 solr 我的 solr 实例在 jetty 中运行并受到基本身份验证的保护我发现这些链接包含相关信息 http grokbase com t lucene solr user 1288xjjbwx
如何在 PHP 中使用 cURL 发布到 Google 脚本并返回文本？

我正在努力做最少的事情只是为了让它发挥作用这是我的谷歌脚本 function doPost e return ContentService createTextOutput JSON stringify e parameter 这是我的
将 int 值编码为 IEEE-754 float (binary32)

给定表示 IEEE 754 浮点数的 32 位如何使用表示形式上的整数或位运算而不是使用机器指令或编译器操作来转换将该数字转换为整数我有以下功能但在某些情况下会失败输入 int x 包含 IEEE 754 格式的 32 位单精度
Python - 手动浏览器登录后从 urllib2 恢复 Web 会话

假设我浏览到一个需要登录才能访问内容的网站也在 Intranet 上我将填写必填字段例如从浏览器本身登录所需的用户名密码和任何验证码等登录该网站后可以从登录后第一页上的多个链接和选项卡中抓取很多好东西现在从现在开始即从浏览

Python - 手动浏览器登录后从 urllib2 恢复 Web 会话

Python - 手动浏览器登录后从 urllib2 恢复 Web 会话 的相关文章

随机推荐

热门标签

Python - 手动浏览器登录后从 urllib2 恢复 Web 会话的相关文章