使用scrapy Spider捕获http状态码

2024-01-09

我是 scrapy 新手。我正在编写一个蜘蛛程序，旨在检查一长串服务器状态代码的 URL，并在适当的情况下检查它们被重定向到的 URL。重要的是，如果存在重定向链，我需要知道每次跳转的状态代码和 url。我正在使用 response.meta['redirect_urls'] 来捕获 url，但不确定如何捕获状态代码 - 似乎没有响应元键。

我意识到我可能需要编写一些自定义中间件来公开这些值，但不太清楚如何记录每个跃点的状态代码，也不太清楚如何从蜘蛛访问这些值。我看过但找不到任何人这样做的例子。如果有人能指出我正确的方向，我将不胜感激。

例如，

    items = []
    item = RedirectItem()
    item['url'] = response.url
    item['redirected_urls'] = response.meta['redirect_urls']     
    item['status_codes'] = #????
    items.append(item)

Edit- 基于 warawauk 的反馈和 IRC 频道 (freenode #scrappy) 上的人的一些真正主动的帮助，我已经成功做到了这一点。我认为这有点老套，所以欢迎任何改进意见：

(1) 在设置中禁用默认的中间件，并添加自己的中间件：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware': None,
    'myproject.middlewares.CustomRedirectMiddleware': 100,
}

(2) 在 middlewares.py 中创建 CustomRedirectMiddleware。它继承自主重定向中间件类并捕获重定向：

class CustomRedirectMiddleware(RedirectMiddleware):
    """Handle redirection of requests based on response status and meta-refresh html tag"""

    def process_response(self, request, response, spider):
        #Get the redirect status codes
        request.meta.setdefault('redirect_status', []).append(response.status)
        if 'dont_redirect' in request.meta:
            return response
        if request.method.upper() == 'HEAD':
            if response.status in [301, 302, 303, 307] and 'Location' in response.headers:
                redirected_url = urljoin(request.url, response.headers['location'])
                redirected = request.replace(url=redirected_url)

                return self._redirect(redirected, request, spider, response.status)
            else:
                return response

        if response.status in [302, 303] and 'Location' in response.headers:
            redirected_url = urljoin(request.url, response.headers['location'])
            redirected = self._redirect_request_using_get(request, redirected_url)
            return self._redirect(redirected, request, spider, response.status)

        if response.status in [301, 307] and 'Location' in response.headers:
            redirected_url = urljoin(request.url, response.headers['location'])
            redirected = request.replace(url=redirected_url)
            return self._redirect(redirected, request, spider, response.status)

        if isinstance(response, HtmlResponse):
            interval, url = get_meta_refresh(response)
            if url and interval < self.max_metarefresh_delay:
                redirected = self._redirect_request_using_get(request, url)
                return self._redirect(redirected, request, spider, 'meta refresh')


        return response

(3) 您现在可以使用以下命令访问蜘蛛中的重定向列表

request.meta['redirect_status']

我相信这可以作为

response.status

See http://doc.scrapy.org/en/0.14/topics/request-response.html#scrapy.http.Response http://doc.scrapy.org/en/0.14/topics/request-response.html#scrapy.http.Response

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用scrapy Spider捕获http状态码的相关文章

如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

如何在 ngFor 之后检测 DOM 何时准备好？

我想要动画 li 元素例如使用 jQuery 但是我如何检测 DOM 何时完成 ngFor View ul li event date medium li ul li
如何在执行 ajax 命令时查找验证错误的指示（required="true"）

我在对话框中有一个表单通过使用 ajax 单击 commandbutton 来关闭该表单像这样
如何在 C++ 上实现 MS Excel 的简单插件

我需要帮助在 C 上实现 Excel 2010 或更高版本的加载项该加载项的唯一功能是重命名当前的 Excel 工作表 The add in should create new custom tab on the Ribbon with
如何更改 QtCreator 中的构建目录？

我有一个使用 QtCreator 完成的基于 cmake 的 C 项目我手动编写了 CMakeLists txt 文件当从 QtCreator 的命令行构建时我得到了这个目录结构如预期的那样 MyProj source code M
c 中的结构中的 _Noreturn：错误：“_Noreturn”之前预期有说明符限定符列表

我正在尝试编译一段包含 Noreturn 的代码 ifndef SOMEHEADER H define SOMEHEADER H include
hadoop中如何实现排序？

我的问题是对文件中的值进行排序键和值都是整数需要维护排序值的键 key value 1 24 3 4 4 12 5 23 output 1 24 5 23 4 12 3 4 我正在处理大量数据并且必须在 hadoop 机器集群中运行代
关于如何在 Rails 3 中使用“thumbs_up”投票 gem 的说明

我正在尝试实施竖起大拇指 https github com bouchard thumbs up在 Rails 3 应用程序上投票 gem 但是实际实施的说明并不清楚需要宝石后宝石竖起大拇指创建并运行适当的迁移后 Rails 生成t
阻止 PowerShell ForEach-Object 展平列表？

如果有两个以上的项目以下代码将打印计数这 Split 被叫了两次 a b c x y 1 2 3 Where Object Split Count gt 2 ForEach Object x Split x Count 下面的代码尝试调
HTML5 Canvas 中的取消绑定功能

我想在 HTML5 Canvas 中取消绑定功能示例当我在选择选项矩形后选择画笔时当我使用画笔时它也会创建矩形请帮助我解决同样的问题 Thanks Devesh 选择矩形然后选择橡皮擦后看到另一个矩形的原因如下 function
将Android aar发布到artificialory

我一直坚持将artifactory 3 0 1 插件与Gradle 集成我使用的是 Android Studio 1 0 所以我猜我使用的是 Gradle 2 0 任何有关使用 3 0 1 插件发布到神器的示例都会非常有帮助提前致谢发
仅评估宏参数一次

在下面的代码中无论传递什么retval对该令牌的每次使用都按照给定的方式进行评估 define CPFS RETURN commit retval do util cpfs exit commit return retval while
通过 NFS 共享文件夹对 VirtualBox 上的 Hack 代码进行类型检查

首先提到的似乎是谨慎的这个问题 https github com facebook hhvm issues 2311进而这个恰如其名的编辑 https github com facebook hhvm commit 3f8842fab404
用正则表达式删除中文单词之间的所有空格

我想删除其中的所有空格仅中文文本 My text 請把這裡的 10 多個字合併 Can you help me 理想输出請把這裡的 10 多個字合併 Can you help me var str 請把這裡的 10
Altair 交互式线图，单击右侧图标时使线弹出并突出显示

我一直在尝试在 jupyter 实验室上使用 Altair 制作一些交互式绘图 I had reached this stage where the results is below 正如您所看到的当该行突出显示时它不会弹出到前面如何
在提示符或 Android gradle 中检索 git 分支名称：在 Jenkins 上它返回 HEAD

在 gradle 中我想将当前分支名称和提交编号添加为我的 versionName 的后缀为什么因为当我在 Jenkins 中构建应用程序并在 HockeyApp 中发布它时显示该应用程序是从哪个分支和提交构建的非常有用因此当我
使用 cgroup 限制 CPU 总使用量

我有一个使用的脚本ulimit t 5将程序的 CPU 时间限制为 5 秒该程序现在会生成子进程因此我想改用 cgroup 这样我就可以限制该进程及其子进程占用的 CPU 但是我找不到对 cgroup 的 CPU 使用率设置硬性上限的
IE6&7“此页面包含安全和不安全项目”的原因

我有一个 HTTPS 站点在 IE6 和 7 中显示错误地一个对话框内容如下此页面包含安全和不安全的项目您想显示不安全的项目吗在任何合适的浏览器中都不会发生这种情况但该站点是公司站点并且许多客户仍在使用 Windows 2
如何在 MATLAB 中使用计时器以固定时间间隔运行函数

我想以 30 分钟的间隔运行一个函数每次运行该函数时都会采用不同的输入假设我想运行 100 次函数为lookupweather 输入为location1 location2 location3 location100 我试过了 fo
是否可以为每个类创建一个空对象？（当然要借助工具）

The 空对象模式 http en wikipedia org wiki Null Object pattern旨在成为 safe 中立行为这个想法是创建一个不执行任何操作的对象但也不抛出 NullPointerException 例
使用scrapy Spider捕获http状态码

我是 scrapy 新手我正在编写一个蜘蛛程序旨在检查一长串服务器状态代码的 URL 并在适当的情况下检查它们被重定向到的 URL 重要的是如果存在重定向链我需要知道每次跳转的状态代码和 url 我正在使用 response met

使用scrapy Spider捕获http状态码

使用scrapy Spider捕获http状态码 的相关文章

随机推荐

热门标签

使用scrapy Spider捕获http状态码的相关文章