Scrapy 通过表单身份验证绕过警报消息

2024-01-22

Scrapy是否可以抓取警报消息？

链接例如，http://域名/admin http://domainhere/admin，一旦加载到实际的浏览器中，就会出现一条带有表单的警报消息，以填写用户名和密码。

或者有没有办法检查警报消息中的表单以了解要填写哪些参数？

PS：我确实有这个网站的凭据，我只是想通过网络爬行来自动化流程。

Thanks.

为了实现这一目标，我所做的是通过执行以下操作：

观察身份验证后需要哪些数据才能继续该页面。
我使用 Chrome 的“网络”选项卡中的开发人员工具检查了请求标头。经观察，需要授权。
为了验证步骤 #2，我使用了 Postman。使用Postman中的Authorization，Basic Auth类型，填写用户名和密码将为Authorization标头生成相同的值。发送POST请求后，它加载所需的页面并绕过身份验证。
请求标头下的授权具有相同的值，将该值存储在 Scraper 类中。
使用带有 headers 参数的 scrapy.Request 函数。

Code:

import scrapy

class TestScraper(scrapy.Spider):
    handle_httpstatus_list = [401]
    name = "Test"
    allowed_domains = ["xxx.xx.xx"]
    start_urls = ["http://testdomain/test"]

    auth = "Basic [Key Here]"

    def parse(self, response):
        return scrapy.Request(
            "http://testdomain/test",
            headers={'Authorization': self.auth},
            callback=self.after_login
        )

    def after_login(self, response):
        self.log(response.body)

现在，您可以在身份验证过程后抓取页面。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

Scrapy

webcrawler

Scrapy 通过表单身份验证绕过警报消息的相关文章

如何让“conda”安装程序查找“PyPi”包

我试图使用conda http conda pydata org docs using pkgs html managing packages包管理器来安装我的 Python 包最近我遇到了 Anaconda org 存储库中不存在我需
GUI 测试工具 PyUseCase 与 Dogtail 相比如何？

GUI测试工具如何Py用例 http pypi python org pypi PyUseCase重命名为故事文本 http pypi python org pypi StoryText 相比于Dogtail http en wikiped
Python：json_normalize pandas 系列给出 TypeError

我在 pandas 系列中有数万行像这样的 json 片段df json IDs lotId 1 Id 123456 date 2009 04 17 bidsCount 2 IDs lotId 2 Id 123456 date 2009 0
将整数系列转换为交替（双元）二进制系列

我不知道如何最好地表达这个问题因为在这里谷歌搜索和搜索总是让我找到更复杂的东西我很确定这是基本的东西但对于我的生活来说我找不到一个好的方法来做到这一点下列给定一个整数序列比如说 for x in range 0 36 我想将这些
动态字段取决于 WTForms 的先前字段

我正在使用 WTForms 制作表格目前我有这个 class UploadForm flask wtf Form fichier wtforms fields FileField u Fichier description wtform
Python3将模块从文件夹导入到另一个文件夹

我的结构字典是 mainFolder folder1 init py file1 py file2 py folder2 init py file3 py file4 py setup py init py 我需要将 file4 py 从f
如何用函数记录一个文件？

我有一个带有函数 lib py 但没有类的python 文件每个函数都有以下样式 def fnc1 a b c This fonction does something param a lalala type a str param b
使用 Tkinter 打开网页

因此我的应用程序需要能够打开其中的单个网页并且它必须来自互联网并且未保存特别是我想使用 Tkinter GUI 工具包因为它是我最熟悉的工具包最重要的是我希望能够在窗口中生成事件例如单击鼠标但无需实际使用鼠标有什么好的方法
如何找到多个 pandas 数据框中一对列与任意顺序对的交集？

我有多个 pandas 数据框为了简单起见假设我有三个 gt gt df1 col1 col2 id1 A B id2 C D id3 B A id4 E F gt gt df2 col1 col2 id1 B A id2 D C id
使用 scikit 时 scipy.sparse 矩阵的缩放问题

在使用 scikit learn 解决机器学习问题时我需要在使用 SVM 进行训练之前对 scipy sparse 矩阵进行缩放但在文档 http scikit learn org stable modules preprocessin
列表推导式和 for 循环中的 Lambda 表达式[重复]

这个问题在这里已经有答案了我想要一个 lambda 列表作为一些繁重计算的缓存并注意到这一点 gt gt gt j for j in lambda i for i in range 10 9 9 9 9 9 9 9 9 9 9 Alt
Python 在哪些系统上不使用 IEEE-754 双精度浮点数

Python 对 IEEE 754 浮点运算进行了各种引用但不保证1 https docs python org 3 tutorial floatingpoint html 2 https pythondev readthedocs io
pandas groupby 操作缺少数据

在 pandas 数据框中我有一列如下所示 0 M 1 E 2 L 3 M 1 4 M 2 5 M 3 6 E 1 7 E 2 8 E 3 9 E 4 10 L 1 11 L 2 12 M 1 a 13 M 1 b 14 M 1 c 15
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
在Python中使用pil读取tif图像时出现值错误？

我必须读取尺寸的tif图像2200 2200并输入 uint16 我将 PIL 库与 anaconda python 一起使用如下所示 from PIL import Image img Image open test tif img i
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
如何在引发异常时将变量传递给异常并在异常时检索它？

现在我只有一个空白的异常类我想知道如何在引发变量时给它一个变量然后在 try except 中处理它时检索该变量 class ExampleException Exception pass 为其构造函数提供一个参数将其存储为属性然后
类返回语句不打印任何输出

我正在学习课程但遇到了问题return语句它是语句吗我希望如此程序什么也没有打印出来它只是结束而不做任何事情 class className def createName self name self name name def
AWS 将 MQTT 消息存储到 DynamoDB

我构建了一个定期发送 MQTT 消息的 python 脚本这是发送到后端的 JSON 字符串 Id 1234 Ut 1488395951 Temp 22 86 Rh 48 24 在后端我想将 MQTT 消息存储到 DynamoDB 表中
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P

随机推荐

序列化代码示例中的无限循环

看看下面的代码here https web archive org web 20151025040111 http blogs msdn com 80 b sowmy archive 2006 03 26 561188 aspx 它是关于在
如何使用 Jest 运行单个测试？

我在文件 fix order test js 中有一个适用于嵌套子项的测试运行以下命令会运行文件中的所有测试 jest fix order test 如何只运行一个测试下面的代码不起作用因为它搜索指定的正则表达式的文件 jest
Windows：检测右 alt 是否在当前布局中生成 Ctrl+Alt (AltGr)

Windows 中的某些键盘布局例如 US QWERTY 将右 Alt 视为常规 Alt 键而其他键盘布局例如 US International 将其视为 AltGr 并在按下时同时生成 Ctrl 和 Alt 键 Microsoft
通过身份验证从 https 下载文件

我有一个 Python 2 6 脚本可以从 Web 服务器下载文件我希望这个脚本传递用户名和密码用于在获取文件之前进行身份验证并且我将它们作为 url 的一部分传递如下所示 import urllib2 response urll
android 中如何导航到另一个页面？

我是安卓新手请告诉我如何在 android 中导航到新页面提前致谢编辑如何从现有活动开始新活动在 Android 中导航到另一个页面意味着您必须启动另一个 Activity 要开始新活动请使用此 Intent intent n
使用 postgres 表序列而不是共享 hibernate_sequence

当我对表执行任何操作时它总是显示错误 Hibernate select nextval hibernate sequence 2019 07 20 16 15 44 877 WARN 58376 nio 9000 exec 1 o h e
按修改日期而不是发布日期对 Jekyll 帖子进行排序？

对于经常更新帖子的人来说有必要根据帖子从新到旧进行排序最后修改日期而不是 Jekyll 默认按发布日期排序似乎没有简单的方法可以实现这一点我已经阅读并测试了几乎所有的方法这是有效的部分符合预期用过这个宝石https github
在linux中安装jdk 1.7时出错[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案当我使用以下命令在 Oracle Linux 中安装 jdk 1 7 时 rpm ivh jdk 7u9 linux i586 rpm 但是我收到以下
使用正则表达式捕获两个单词之间的文本

我正在尝试使用 CSharp 中的正则表达式获取两个关键字之间的文本虽然我已经找到了一个具有相同标题的主题但该主题是关于查找方括号之间的文本这相当容易因为您可以使用
为什么 SQLAlchemy count() 比原始查询慢得多？

我正在使用 SQLAlchemy 和 MySQL 数据库我想计算表中的行数大约 300k SQL炼金术count http docs sqlalchemy org ru latest orm query html sqlalchemy
警告：在此函数中使用未初始化的“”[-Wuninitialized]

以下程序编译时没有警告 O0 include
GitHub Action：如何从表达式求值中获取值并将其分配给环境变量

环境表达式通常直接赋值如下例所示 name set up env var env TAG v1 2 3 run echo TAG 但是如何从 shell 脚本评估中获取值呢例如在我的终端中我可以通过以下方式获取当前标签git des
CMake rpm 在 /etc/init.d 中安装文件

我想安装一个文件 etc init d 目录我已经写了代码 INSTALL FILES CMAKE SOURCE DIR app script appd DESTINATION etc init d appd 但是当我使用 cmake 运
Facebook SDK 4.5 iOS 9

我遇到了新 FBSDK 的问题每当我尝试调用登录方法 logInWithReadPermissions 时我都会收到以下错误消息错误 canOpenUrl url fbauth2 失败错误 null 我的配置 plist 文件遵循 i
使用GPU加速BigInteger计算

我几乎完成了处理一些非常大的整数大约 2 的 100 000 000 次方的算法由于该算法不是内存密集型的因此需要在内存充足的 16 核服务器上编写几个小时的高度并行代码我使用 NET 4 中的 BigInteger 类算法的细
ASP.Net Core 中的动态路由

我需要提供一个路由机制其中路由是在运行时从用户帐户创建生成的例如http mysite username home 我认为这可以通过路由来完成但我不确定从哪里开始使用 ASP Net Core 我在网上看到了一些 MVC 5 的示例
zxing 集成到 monodroid 应用程序中

我正在尝试将 ZXing 的条形码扫描仪集成到 MonoDroid 应用程序中我看到普通的 Android java 应用程序有IntentIntegration java 和 IntentResult java http code go
如何“解锁詹金斯”？

我正在Windows上安装Jenkins 2 安装后打开一个页面 URL是 http localhost 8080 login from 2F http localhost 8080 login from 2F content of th
Selenium 在 Windows 中运行无头 Firefox 浏览器

是否可以将 Selenium 配置为使用 Firefox 驱动程序并在 Windows 中无头运行浏览器我知道其他驱动程序在 Windows 或 Linux 下也能正常工作但在上面提到的特定情况下则不然任何可供阅读的参考信息实现它的
Scrapy 通过表单身份验证绕过警报消息

Scrapy是否可以抓取警报消息链接例如 http 域名 admin http domainhere admin 一旦加载到实际的浏览器中就会出现一条带有表单的警报消息以填写用户名和密码或者有没有办法检查警报消息中的表单以了解要填写

Scrapy 通过表单身份验证绕过警报消息

Scrapy 通过表单身份验证绕过警报消息 的相关文章

随机推荐

热门标签

Scrapy 通过表单身份验证绕过警报消息的相关文章