如何获取scrapy失败的URL？

2024-01-16

我是 scrapy 的新手，这是我所知道的令人惊叹的爬虫框架！

在我的项目中，我发送了超过 90, 000 个请求，但其中有一些失败了。我将日志级别设置为INFO，我只能看到一些统计信息，但看不到详细信息。

2012-12-05 21:03:04+0800 [pd_spider] INFO: Dumping spider stats:
{'downloader/exception_count': 1,
 'downloader/exception_type_count/twisted.internet.error.ConnectionDone': 1,
 'downloader/request_bytes': 46282582,
 'downloader/request_count': 92383,
 'downloader/request_method_count/GET': 92383,
 'downloader/response_bytes': 123766459,
 'downloader/response_count': 92382,
 'downloader/response_status_count/200': 92382,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2012, 12, 5, 13, 3, 4, 836000),
 'item_scraped_count': 46191,
 'request_depth_max': 1,
 'scheduler/memory_enqueued': 92383,
 'start_time': datetime.datetime(2012, 12, 5, 12, 23, 25, 427000)}

有什么办法可以得到更详细的报告吗？例如，显示那些失败的 URL。谢谢！

是的，这是可能的。

下面的代码添加了一个failed_urls列表到一个基本的蜘蛛类，并在 url 的响应状态为 404 时向其附加 url（这需要扩展以涵盖所需的其他错误状态）。
接下来，我添加了一个句柄，将列表连接到单个字符串中，并在蜘蛛关闭时将其添加到蜘蛛的统计信息中。
根据您的评论，可以跟踪 Twisted 错误，下面的一些答案给出了有关如何处理特定用例的示例
该代码已更新为可与 Scrapy 1.8 配合使用。所有这一切都应该归功于胡利亚诺·门迭塔 https://stackoverflow.com/users/6937440/juliano-mendieta，因为我所做的只是添加他建议的编辑并确认蜘蛛按预期工作。

from scrapy import Spider, signals

class MySpider(Spider):
    handle_httpstatus_list = [404] 
    name = "myspider"
    allowed_domains = ["example.com"]
    start_urls = [
        'http://www.example.com/thisurlexists.html',
        'http://www.example.com/thisurldoesnotexist.html',
        'http://www.example.com/neitherdoesthisone.html'
    ]

    def __init__(self, *args, **kwargs):
            super().__init__(*args, **kwargs)
            self.failed_urls = []

    @classmethod
    def from_crawler(cls, crawler, *args, **kwargs):
        spider = super(MySpider, cls).from_crawler(crawler, *args, **kwargs)
        crawler.signals.connect(spider.handle_spider_closed, signals.spider_closed)
        return spider

    def parse(self, response):
        if response.status == 404:
            self.crawler.stats.inc_value('failed_url_count')
            self.failed_urls.append(response.url)

    def handle_spider_closed(self, reason):
        self.crawler.stats.set_value('failed_urls', ', '.join(self.failed_urls))

    def process_exception(self, response, exception, spider):
        ex_class = "%s.%s" % (exception.__class__.__module__, exception.__class__.__name__)
        self.crawler.stats.inc_value('downloader/exception_count', spider=spider)
        self.crawler.stats.inc_value('downloader/exception_type_count/%s' % ex_class, spider=spider)

示例输出（请注意，只有在实际抛出异常时才会出现 downloader/exception_count* 统计信息 - 我通过在关闭无线适配器后尝试运行蜘蛛来模拟它们）：

2012-12-10 11:15:26+0000 [myspider] INFO: Dumping Scrapy stats:
    {'downloader/exception_count': 15,
     'downloader/exception_type_count/twisted.internet.error.DNSLookupError': 15,
     'downloader/request_bytes': 717,
     'downloader/request_count': 3,
     'downloader/request_method_count/GET': 3,
     'downloader/response_bytes': 15209,
     'downloader/response_count': 3,
     'downloader/response_status_count/200': 1,
     'downloader/response_status_count/404': 2,
     'failed_url_count': 2,
     'failed_urls': 'http://www.example.com/thisurldoesnotexist.html, http://www.example.com/neitherdoesthisone.html'
     'finish_reason': 'finished',
     'finish_time': datetime.datetime(2012, 12, 10, 11, 15, 26, 874000),
     'log_count/DEBUG': 9,
     'log_count/ERROR': 2,
     'log_count/INFO': 4,
     'response_received_count': 3,
     'scheduler/dequeued': 3,
     'scheduler/dequeued/memory': 3,
     'scheduler/enqueued': 3,
     'scheduler/enqueued/memory': 3,
     'spider_exceptions/NameError': 2,
     'start_time': datetime.datetime(2012, 12, 10, 11, 15, 26, 560000)}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

report

Scrapy

如何获取scrapy失败的URL？的相关文章

SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

批处理脚本 - 以编程方式在 Windows XP 中创建用户

有没有办法通过批处理脚本在 Windows XP 中创建用户甚至为其分配管理员有限用户值假设用户名是 rased 密码是 passS net user rased pAsS add net localgroup administrat
fork()如何知道自己是在子进程还是在父进程？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案当执行 fork 系统调用时处理器转入内核模式因此在 fork 调用结束时会生成一个新进程其中包含调用进程的几乎所有结构的副
了解 aiohttp.TCPConnector 池和连接限制

我正在尝试limit and limit per host参数为aiohttp connector TCPConnector 在下面的脚本中我通过connector aiohttp connector TCPConnector limit
从 EPS 中提取图像数据

我有一个封装的 PostScript http en wikipedia org wiki Encapsulated PostScript文件似乎只包装了一个图像文件有没有工具可以从中提取图像数据 convert 将使用ghostscri
发送标头后重定向用户

据我所知只要数据已发送到浏览器那么标头就无法修改有什么方法使用 PHP 可以执行重定向以将用户带到另一个页面显然不使用标头如果是这样您能给我指出一些文档吗决定编写我自己的 php 函数来实现 javascript 重定向请
是否可以在 WPF 中使用 ReactiveUI 绑定仅通过 INotifyDataErrorInfo 验证用户输入？

我们在 Net Core WPF 应用程序中使用 ReactiveUI WPF 11 0 1 我们正在考虑将所有基于 XAML 的绑定替换为基于 ReactiveUI 的绑定域类型有一个 ViewModel 实现了 INotifyProp
Ruby on Rails 的隐藏功能 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
UIImageWriteToSavedPhotosAlbum() 不保存裁剪后的图像

我正在尝试将裁剪后的图像保存到相机胶卷中我需要以编程方式完成我不能让用户编辑它这是我的仍然很基本剪切和保存代码 void cutAndSaveImage UIImage rawImage CIImage workingImage
JavaFX 中的磨砂玻璃效果？

我正在制作一个 iOS 7 主题的 JavaFX 2 FXML 项目我想知道如何使 Rectangle 对象具有类似 iOS7 的磨砂玻璃效果我还希望它有一个小阴影这很棘手因为您可能能够看到半透明物体后面的阴影我只是希望它出现在边
Centos 7 - openjdk8 的 jfx 库在哪里？

我有centos 7 1 我安装了openjdk8和openjdk devel8 但是当我尝试在 netbeans 中编译我的 jfx 应用程序时我得到包 javafx 不存在经过一番调查我发现jdk中没有jfxrt jar 除了
在 Archlinux 上设置 Haskell 的建议方法是什么？

我想要一些关于让 Haskell 在 Archlinux 上工作的最佳方法的指导 By work我的意思是所有就ghci命令行工具安装我没有的软件包例如vector space http hackage haskell org p
我到底如何在rails 3中安装restful身份验证插件？

我对 Rails 3 上的这个 Restful 身份验证插件感到非常困惑我尝试使用以下命令安装该插件它告诉我它已经安装了然后我尝试使用 force重新安装这个插件它告诉我找不到该插件所以如果插件已经安装为什么我会收到错误Could
使用 Parsec 在 Haskell 中编写小型解析器时出现问题

我正在尝试使用以下代码为小语言编写解析器 import Text ParserCombinators Parsec import Text Parsec Token data Exp Atom String Op String Exp in
使用 CMake 为 Visual Studio 2012 编译 SFML

在开始提问之前我只想澄清一下我希望 SFML 能够静态链接到 runetime 因为我想静态链接 mvsc dll 这样就没有人需要安装它们或依赖它们我成功地从网站上完成了这项工作但它也有同样的问题到问题了我从 github 下
使用 getRange() 时如何跳过一列 - Google Apps 脚本

我似乎无法弄清楚如何将此脚本放在跳过列中L 我尝试了许多不同的品种但都导致错误希望有更多经验的人能够指点迷津我需要I K and M O没有L sheet1 getRange I1 O sheet1 getLastRow getVal
如何提高反序列化速度？

使用 BinaryFormatter 进行序列化反序列化生成的序列化文件大小约为 80MB 反序列化需要几分钟我该如何改进这一点这是反序列化代码 public static Universe DeserializeFromFile
在Powershell脚本中传递Jenkins环境变量

我想在 power shell 脚本中使用 jenkins 环境变量这里 destination 在 powershell 脚本中为 null 无法识别我在做什么错误请帮助 bin groovy pipeline agent label
以 Promise.all 为条件 [重复]

这个问题在这里已经有答案了我知道这个答案 https stackoverflow com a 31414472 4640499下面的代码是基于它的它正在工作但我对某些事情不满意如果我想进行一些条件检查并基于它解决怎么办我已经对我想
git 与 xcode 快照

我正在通过 itunesU 视频学习 iOS 编程并且一直在使用 xcode 我在 xcode 中发现了创建快照的功能到目前为止我已经用它来为我的项目在每个主要里程碑拍摄快照然后我来到关于使用 git 进行版本控制的章节并按照他们
如何获取scrapy失败的URL？

我是 scrapy 的新手这是我所知道的令人惊叹的爬虫框架在我的项目中我发送了超过 90 000 个请求但其中有一些失败了我将日志级别设置为INFO 我只能看到一些统计信息但看不到详细信息 2012 12 05 21 03 04

如何获取scrapy失败的URL？

如何获取scrapy失败的URL？ 的相关文章

随机推荐

热门标签

如何获取scrapy失败的URL？的相关文章