使用 selenium 进行 Scrapy 处理需要身份验证的网页

2023-12-01

我正在尝试从具有大量 AJAX 调用和 javascript 执行的页面中抓取数据来呈现网页。所以我尝试使用 scrapy 和 selenium 来执行此操作。作案手法如下：

将登录页面URL添加到scrapy start_urls列表中
使用响应方法中的 formrequest 发布用户名和密码以进行身份验证。
登录后，请求抓取所需页面
将此响应传递给 Selenium Webdriver 以单击页面上的按钮。
单击按钮并呈现新网页后，捕获结果。

到目前为止我的代码如下：

 from scrapy.spider import BaseSpider
 from scrapy.http import FormRequest, Request
 from selenium import webdriver
 import time


 class LoginSpider(BaseSpider):
    name = "sel_spid"
    start_urls = ["http://www.example.com/login.aspx"]


    def __init__(self):
        self.driver = webdriver.Firefox()


    def parse(self, response):
        return FormRequest.from_response(response,
               formdata={'User': 'username', 'Pass': 'password'},
               callback=self.check_login_response)

    def check_login_response(self, response):
        if "Log Out" in response.body:
            self.log("Successfully logged in")
            scrape_url = "http://www.example.com/authen_handler.aspx?SearchString=DWT+%3E%3d+500"
            yield Request(url=scrape_url, callback=self.parse_page)
        else:
            self.log("Bad credentials")

    def parse_page(self, response):
        self.driver.get(response.url)
        next = self.driver.find_element_by_class_name('dxWeb_pNext')
        next.click()
        time.sleep(2)
        # capture the html and store in a file

到目前为止我遇到的两个障碍是：

步骤4不起作用。每当selenium打开firefox窗口时，它总是在登录屏幕上并且不知道如何绕过它。
我不知道如何实现第5步

任何帮助将不胜感激

我不相信你可以像这样在 scrapy Requests 和 selenium 之间切换。您需要使用selenium而不是yield Request()登录站点。您使用 scrapy 创建的登录会话不会转移到 selenium 会话。这是一个示例（元素 ids/xpath 对您来说会有所不同）：

    scrape_url = "http://www.example.com/authen_handler.aspx"
    driver.get(scrape_url)
    time.sleep(2)
    username = self.driver.find_element_by_id("User")
    password =  self.driver.find_element_by_name("Pass")
    username.send_keys("your_username")
    password.send_keys("your_password")
    self.driver.find_element_by_xpath("//input[@name='commit']").click()

那么你可以这样做：

    time.sleep(2)
    next = self.driver.find_element_by_class_name('dxWeb_pNext').click()
    time.sleep(2)

etc.

编辑：如果您需要渲染 javascript 并担心速度/非阻塞，您可以使用http://splash.readthedocs.org/en/latest/index.html这应该可以解决问题。

http://splash.readthedocs.org/en/latest/scripting-ref.html#splash-add-cookie有关于传递cookie的详细信息，你应该能够从scrapy传递它，但我以前没有这样做过。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

Scrapy

使用 selenium 进行 Scrapy 处理需要身份验证的网页的相关文章

SpecFlow Teardown 打开和关闭多个空白浏览器

我正在将一堆 selenium 测试用例转换为 SpecFlow 一切都运行良好但让我发疯的是我正在使用后场景来执行 driver quit 当执行时我大约打开和关闭了 4 6 个浏览器查看任务管理器它正在杀死所有 chromedr
Tensorflow 可变图像输入大小（自动编码器、放大......）

Edit WARNING不建议使用不同图像大小的图像因为张量需要具有相同的大小才能实现并行化我一直在寻找解决方案了解如何使用不同大小的图像作为神经网络的输入 Numpy 第一个想法是使用numpy 然而由于每个图像的大小不同我无法
如何从 PyCharm 项目中获取我的“exe”[重复]

这个问题在这里已经有答案了通过 PyCharm 在 Python 上编写一些项目我想从中获取一个exe文件我尝试过另存为 gt XXX exe 但是当我尝试执行它时出现错误此类操作系统不支持该文件附注我有win7 x64 它
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
PIL Image.size 返回相反的宽度/高度

使用PIL确定图像的宽度和高度在特定图像上幸运的是只有这一个但这很麻烦从 image size 返回的宽度高度是相反的图片 http storage googleapis com cookila 533ebf752b9d1f7c
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
在径向（树）网络x图中查找末端节点（叶节点）

给定下图是否有一种方便的方法来仅获取末端节点我所说的端节点是指那些具有一个连接边的到节点我认为这些有时被称为叶节点 G nx DiGraph fromnodes 0 1 1 1 1 1 2 3 4 5 5 5 7 8 9 10 ton
selenium.common.exceptions.WebDriverException：消息：服务

当我使用 selenium 控制 Chrome 时遇到了麻烦这是我的代码 from selenium import webdriver driver webdriver Chrome When i tried to operate it
Python 中的 @staticmethod 与 @classmethod

方法和方法有什么区别装饰的 https peps python org pep 0318 with staticmethod http docs python org library functions html staticmethod和
在可编辑的QSqlQueryModel中实现setEditStrategy

这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里我们创建了 QSqlQueryModel 的可
将一个列表的元素除以另一个列表的元素

我有两个清单比如说 a 10 20 30 40 50 60 b 30 70 110 正如你所看到的列表 b 由一个列表的元素总和组成其中 window 2 b 0 a 0 a 1 10 20 30 etc 如何获得另一个列表该列表由
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
导入错误：没有名为 google.auth 的模块

当我尝试导入时firebase admin in python 2 7我收到错误导入错误没有名为 google auth 的模块这是Docker文件 https github com ammaratef45 Attendance bl
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
检查字符串是否只有字母和空格 - Python

试图让 python 返回一个字符串仅包含字母和空格 string input Enter a string if all x isalpha and x isspace for x in string print Only alphabe
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
来自 django 教程 was_published_recently.admin_order_field = 'pub_date'

From Django 教程 https www jetbrains com help pycharm 2017 1 creating and running your first django project html d28041e21

随机推荐

无法安装 NuGet 包 - 500 内部服务器错误

这对我来说毫无意义 NuGet 以前工作正常但现在当我尝试安装软件包时它会抛出服务器错误我已经卸载并重新安装了最新的 NuGet 但仍然没有成功 PM gt Install Package EntityFramework Install
为什么 LocationManager 没有 LastKnown 位置？

我想要用户的位置并且在该用户自己导航后也只需要一次 locationManager LocationManager this getSystemService LOCATION SERVICE location locationManag
如何在 Windows 7 上安装 Windows Phone 8 SDK

我在 Windows 7 上设置了所有工作区和所有内容但我也想开发 Windows Phone 8 但正如 Microsoft 网站所述它无法安装在 Windows 7 上有人知道如何在 Windows 7 上安装吗我找到了一个破解
iOS Ionic 应用程序中的链接无法立即打开

我的应用程序的视图之一中有一些链接 Sharing 添加到日历打开外部链接在我用来测试应用程序的 iPhone 上 1 和 2 可以工作但只有当我按下主页按钮然后返回到应用程序时才会出现共享日历对话框谁能建议什么可能导致这个我
使用对象类型的字符串名称在 C# 中进行类型转换

我有以下代码应该很容易理解 public class Foo public void FooHasAMethod Console WriteLine it is me foo public class Bar public Foo Foo
sh 按匹配的列名值分解 CSV 文件，同时保留标题

我有一个目录其中包含来自表导出的许多 CSV 文件 tblA csv A B C 1 1 1 1 2 2 2 2 2 3 3 3 tblB csv C D A 1 1 1 1 2 2 2 2 2 3 3 3 为了破坏文件我找到了这个脚本
将 Map[String, Double] 转换为 java.util.Map[String, java.lang.Double]

我认为我们可以依靠隐式转换来转换scala Double to java lang Double 所以我尝试了以下方法 import scala collection JavaConverters object Main extends A
如何从我的 iPad 应用程序打开设置 (Objective-C) [重复]

这个问题在这里已经有答案了我尝试过使用 UIApplication sharedApplication openURL NSURL URLWithString prefs root General path Network 以及您在这里看
从 JAR 中执行 python 文件

我试图弄清楚如何引用 python 文件以便我可以在 Java GUI Jar 中执行它它需要是一个可移植的解决方案因此使用绝对路径对我来说不起作用我在下面列出了我的项目结构并包含了我如何尝试执行 python 脚本的代码我已经
如何修复高图表中隐藏的数据标签？

请看一下JSFIDDLE 此处绿色条不显示任何值我知道添加overflow none crop false将显示该值但它超出了绘图区域有时对于较大的数字它与标题重叠我想仅在条内获取绿色条值而不是隐藏该值对于内部的特定列
淘汰打字稿扩展器

有人可以发布一个在打字稿中扩展可观察值的示例吗淘汰赛延长器 http knockoutjs com documentation extenders html 我从2013年3月6日开始使用这个版本的knockout d tshttps g
RabbitMQ SSL 与 Apring AMQP 1.4.3 连接

我正在尝试通过 SSL 连接到 RabbitMQ 我已按照此处 https www rabbitmq com ssl html 链接的 RabbitMQ SSL 文档进行操作根据 RabbitMQ SSL 文档由于已知漏洞不建议使用
验证输入字符串是有效的十进制数

任何人都可以提供一种算法来检查输入字符串是否是正确形状和形式的十进制数正确形状和形式的规则最多两位小数出于所有实际目的最大数字是 99 999 999 99 整数部分可以使用空格逗号或点作为组分隔符小数部分可以使用逗号或点作为分
使用 fgetcsv 将 Excel csv 导出到 php 文件

我正在使用 Excel 2010 Professional Plus 创建 Excel 文件稍后我尝试将其导出为 UTF 8 csv 文件我通过将其另存为 CSV 符号分隔抱歉我不知道那里的确切措辞但我没有英文版本我担心它的翻译
从 podspec 或 info.plist 检索 pod 版本到代码中

我创建了自己的 pod 其中包含 podspec 文件其中包含 s version 0 4 7 我希望以编程方式将其写入代码中因此每当应用程序运行时它都会将 pod 版本发送到服务器另一个获取 pod 版本的地方是下面的 plist
Kafka Streams 2.1.1 类转换，同时刷新定时聚合以存储

我正在尝试使用 kafka 流执行窗口聚合并仅在某个会话窗口关闭后才发出结果为了实现这一点我使用了抑制功能问题是我找不到一种方法来使这个简单的测试工作因为当它尝试保持状态时我得到一个类转换异常因为它尝试将 Windowed 转
为什么 fill_n() 不能与 vector.reserve() 一起使用？

最近在学习标准库算法有一个关于函数的问题fill n iter n val 该功能要求容器至少有n元素开始于iter 这是测试代码 Version 1 Error vector
如何通过struts从一个jsp打开另一个jsp

如何打开一个jsp来自另一个jsp通过Struts 例如我有 2 个 JSP Page1 jsp 和 Page2 jsp 页面1 jsp不含任何表格页面2 jsp包含一个表格我需要一个链接页面1 jsp which 当点击时带我去页面
使用sql数据库驱动程序

最终用户开发或生产能否推荐一个最好使用 database sql 包的 Sql 驱动程序包我对 Postgres ODBC MySql 可能还有其他东西但对于大容量的东西即不是 Sqlite 感兴趣它们最好可以在 Windows
使用 selenium 进行 Scrapy 处理需要身份验证的网页

我正在尝试从具有大量 AJAX 调用和 javascript 执行的页面中抓取数据来呈现网页所以我尝试使用 scrapy 和 selenium 来执行此操作作案手法如下将登录页面URL添加到scrapy start urls列表中使

使用 selenium 进行 Scrapy 处理需要身份验证的网页

使用 selenium 进行 Scrapy 处理需要身份验证的网页 的相关文章

随机推荐

热门标签

使用 selenium 进行 Scrapy 处理需要身份验证的网页的相关文章