Scrapy：如何调试scrapy丢失的请求

2023-12-28

我有一个 scrapy 蜘蛛，但有时它不返回请求。

我发现通过在产生请求之前和获得响应之后添加日志消息。

Spider 可以迭代页面并解析每个页面上的项目废弃的链接。

这是代码的一部分

SampleSpider(BaseSpider):
    ....
    def parse_page(self, response):
        ...
        request = Request(target_link, callback=self.parse_item_general)
        request.meta['date_updated'] = date_updated
        self.log('parse_item_general_send {url}'.format(url=request.url), level=log.INFO)
        yield request

    def parse_item_general(self, response):
        self.log('parse_item_general_recv {url}'.format(url=response.url), level=log.INFO)
        sel = Selector(response)
        ...

我比较了每个日志消息的数量，“parse_item_general_send”大于“parse_item_general_recv”

最终统计没有400或500个错误，所有响应状态码只有200。看起来请求就这样消失了。

我还添加了这些参数以尽量减少可能的错误：

CONCURRENT_REQUESTS_PER_DOMAIN = 1
DOWNLOAD_DELAY = 0.8

由于twisted的异步特性，我不知道如何调试这个错误。我发现了一个类似的问题：Python Scrapy并不总是从网站下载数据 https://stackoverflow.com/questions/20289450/python-scrapy-not-always-downloading-data-from-website，但没有任何反应

On，与Rho相同的注释，可以添加设置

DUPEFILTER_CLASS = 'scrapy.dupefilter.BaseDupeFilter'

到您的“settings.py”，这将删除网址缓存。这是一个棘手的问题，因为 scrapy 日志中没有调试字符串告诉您何时使用缓存结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

twisted

Scrapy

Scrapy：如何调试scrapy丢失的请求的相关文章

熊猫按 n 最大总和分组

我正在尝试使用groupby nlargest and sum在 Pandas 中一起运行但在运行时遇到困难 State County Population Alabama a 100 Alabama b 50 Alabama c 40
如何把父母和孩子联系起来？

有两个简单的类一个只有parent属性并且两者兼而有之parent and children属性这意味着同时具备两者的人parent and children继承自唯一的parent 这是只有parent属性我们就这样称呼它吧Chi
为什么 Mypy 在 __init__ 中分配已在类主体中进行类型提示的属性时不给出键入错误？

这是我的示例 python 文件 class Person name str age int def init self name age self name name self age age p Person 5 5 但当我跑步时myp
导入错误：无法导入名称“FFProbe”

我无法获取ffprobe包 https github com simonh10 ffprobe在 Python 3 6 中工作我使用 pip 安装它但是当我输入import ffprobe it says Traceback most
在函数内的 for 循环上使用 tqdm 来检查进度

我正在使用 for 循环迭代目录树内的一大组文件这样做时我想通过控制台中的进度条来监视进度因此我决定使用 tqdm 来实现此目的目前我的代码如下所示 for dirPath subdirList fileList in tqdm
GUI 测试工具 PyUseCase 与 Dogtail 相比如何？

GUI测试工具如何Py用例 http pypi python org pypi PyUseCase重命名为故事文本 http pypi python org pypi StoryText 相比于Dogtail http en wikiped
如何替换Python字符串中的正确字母

任务是您的任务是纠正数字化文本中的错误您只需处理以下错误 S 被误解为 5 O 被误解为 0 I 被误解为 1 我的代码 def correct string for i in string if 5 in string string
DynamodB：如何更新排序键？

该表有两个键 filename 分区键和eventTime 排序键我要更新eventTime对于某些filename Tried put item and update item 发送相同的filename与新的eventTime但这些
Python3将模块从文件夹导入到另一个文件夹

我的结构字典是 mainFolder folder1 init py file1 py file2 py folder2 init py file3 py file4 py setup py init py 我需要将 file4 py 从f
Python speedtest.net，或等效的[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案是否有一个 Python 库可以实现 SpeedTest net 测试或等效的互联网连接速度测试 GitHub上有一个项目叫速度检查 https gi
无法通过 Android 应用程序访问我的笔记本电脑的本地主机

因此我在发布此内容之前做了一项研究我发现的解决方案不起作用更准确地说连接到我的笔记本电脑的 IPv4192 168 XXX XXX 没用连接到10 0 2 2 加上端口不起作用我需要测试使用 Django Rest 框架构建的
multiprocessing.Queue 中的 ctx 参数

我正在尝试使用 multiprocessing Queue 模块中的队列实施 https docs python org 3 4 library multiprocessing html exchang objects Between p
获取多个同名请求参数

我的问题是给定的代码 from flask import Flask request app Flask name app route def hello return str request values get param None a
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
AttributeError: 'super' 对象没有属性 '__getattr__' 在 Kivy 中使用带有多个 kv 文件的 BoxLayout 时出错

我很清楚这个问题已经被问过好几次了但尝试以下解决方案后 Python Kivy AttributeError 尝试获取 self ids 时 super 对象没有属性 getattr https stackoverflow com qu
从给定的项目列表创建子列表

我首先要说的是以下问题不是为了家庭作业目的即使因为我几个月前就完成了软件工程师的工作无论如何今天我正在工作一位朋友向我询问了这个奇怪的排序问题我有一个包含 1000 行的列表每行代表一个数字我想创建 10 个子列表每个子列表都
AWS 将 MQTT 消息存储到 DynamoDB

我构建了一个定期发送 MQTT 消息的 python 脚本这是发送到后端的 JSON 字符串 Id 1234 Ut 1488395951 Temp 22 86 Rh 48 24 在后端我想将 MQTT 消息存储到 DynamoDB 表中
用 pandas DataFrame 替换 mysql 数据库表中的行

Python 版本 2 7 6 熊猫版本 0 17 1 MySQLdb 版本 1 2 5 在我的数据库中 PRODUCT 我有一张桌子 XML FEED 表 XML FEED 很大数百万条记录我有一个 pandas DataFrame
PyObjC + Python 3.0 问题

默认情况下 Cocoa Python 应用程序使用默认的 Python 运行时版本 2 5 如何配置我的 Xcode 项目以便它使用较新的 Python 3 0 运行时我尝试用新版本替换项目中包含的Python framework 但它不
从 Django 运行 shell 命令

我正在 Django 中开发一个网页使用 apache 服务器需要调用 shell 命令来启用禁用一些守护进程我尝试这样做 os system service httpd restart 1 gt HOME out 2 gt HOM

随机推荐

如何运行指向 jar 的 TestNG 测试

我有一个 Jar文件包含在 TestNG 测试上运行所需的文件我想在该 Jar 文件中运行特定的 xml 文件我的要求是是否可以执行指向 Jar文件如果是的话我该怎么做您可以使用 xmlpathinjar suites GroupBa
如何确定谁更改了文件？

在 Windows 中如何以编程方式确定上次更改或删除文件的用户帐户我知道设置对象访问审核可能是一个选项但如果我使用它我就会遇到尝试将审核日志条目与特定文件匹配的问题听起来复杂而混乱我想不出任何其他方法那么有人对这种方法或任何
如何获取 PowerShell 字符串中最后一次出现的字符的索引？

我想从 PowerShell 中的以下字符串获取最后一个出现的索引以便修剪 Activity 单词并保留它 string C cmb Trops TAX Auto Activity 我正在将代码从 VBScript 转换为 PowerS
从 IEnumerable 中的任意点访问一系列元素

我有这个方法 private IEnumerable
Laravel Jobs 不允许序列化“Closure”

我想将数据发送到 NewsletterStore 作业但它因以下错误而失败有什么建议么我还尝试删除 SerializesModels Models 特征没有任何成功 Error Exception Serialization of
如何在 Julia 中逐行读取文件？

如何打开文本文件并逐行读取它我对两种不同情况的答案感兴趣一次获取数组中的所有行一次处理每一行对于第二种情况我不想一次将所有行保留在内存中将文件作为行数组一次性读入内存只需调用readlines功能 julia gt words
ASP.NET Core MVC 2.0 中基于路径的身份验证

在 ASP NET Core MVC 1 1 中我们有基于路径的身份验证如下所示 public void Configure IApplicationBuilder app IHostingEnvironment env ILogger
为什么 git-for-each-ref 无法正确排序标签？

当我有一个包含轻量级标签和带注释标签的存储库时 git for each ref似乎只对其中一组进行排序我想修改我的通话for each ref获得对所有标签进行排序并将它们混合在输出中的输出例如 bash 3 2 git tag gt
C 反转字符串函数得到奇怪的输出

我试图理解指针并制作一个反向字符串函数 code include
批量：将txt文件中的文件复制到一个文件夹中

我正在尝试创建一个批处理文件将文本文件中列出的多个文件复制到新文件夹中我发现了几个与此相关的线程但我仍然无法使批处理正常工作我遇到的问题是txt中列出的文件都位于不同的源位置并且具有不同的扩展名例如该列表如下 C Users F
CSS边距重叠而不是给出距离[重复]

这个问题在这里已经有答案了最近我遇到了边距问题但我无法解决它我的 HTML 看起来像这样 div class info box Some text div div class form div CSS info box border
从 Linux 调试 Windows 内核

我曾经使用调试 Windows 内核虚拟KD WinDBG和一个虚拟机最近我得到了一台Linux机器现在我想知道当你的主机无法运行时调试Windows内核的最简单方法是什么虚拟KD WinDBG 我假设该解决方案需要两个虚拟机但我宁愿
Apache Camel 与 IBM MQ

大家好有谁曾经将 Camel 与 IBM 的 MQ 一起使用过吗我们正在考虑将这两种产品一起使用的可能性但没有这两种产品一起工作的示例我广泛使用 IBM MQ 和 Camel 两者一起使用没有问题我将从我的一个 Spring 上下
vtk.vtkRender() 导致段错误：11

我有一个 python 脚本它不是我编写的它利用了 vtk 模块它可以在我的旧 iMac 和 Linux 机器上运行在安装了 OS X Mavericks 的 Macbook Pro 上尝试时我在渲染过程中遇到了段错误我已经追踪
从我的笔记本电脑连接到 AWS MSK Kafka：NoBrokersAvailable

我在连接到 AWS MSK Kafka 时遇到问题使用 with访问控制方式配置为None 从我的笔记本电脑错误是没有可用的经纪人我在用纯文本通过端口连接9092 from kafka import KafkaProducer ka
如何检测三星互联网浏览器的深色模式？

如果可以检测到这一点是否有可能通过 CSS 类或 JavaScript 影响颜色使用深色阅读器扩展还可以提交调整如果没有其他办法可以改变的话希望这里也是可能的三星互联网确实有颜色的奇怪的东西 https www ctrl blo
Django Rest 框架：如果未对可浏览 API 进行身份验证，则进行重定向

我不确定如果用户不满足权限标准如何实现重定向登录正如文档所述在运行视图主体之前会检查列表中的每个权限所以视图中的重写方法是没有结果的如果有人能指出我正确的方向吗谢谢 Django Rest Framework 是一个用于构建
散景字形坐标与 x_axis_type 'datetime'

我正在尝试将一个简单的文本字符串字形添加到使用的散景图中x axis type datetime 我的代码精简到其要点如下 p figure plot width 900 plot height 380 x axis type da
反应酶测试库

我是反应测试库的新手我热衷于使用酶当我浏览文档时我发现 create react app 允许直接包含第三方测试库我尝试了以下方法来添加酶但没有成功这是我尝试过的但它在我的 app test js 中不起作用 import R
Scrapy：如何调试scrapy丢失的请求

我有一个 scrapy 蜘蛛但有时它不返回请求我发现通过在产生请求之前和获得响应之后添加日志消息 Spider 可以迭代页面并解析每个页面上的项目废弃的链接这是代码的一部分 SampleSpider BaseSpider def pa

Scrapy：如何调试scrapy丢失的请求

Scrapy：如何调试scrapy丢失的请求 的相关文章

随机推荐

热门标签

Scrapy：如何调试scrapy丢失的请求的相关文章