每个 start_url 已抓取多少个项目

2024-05-01

我使用 scrapy 抓取 1000 个 url 并将抓取的项目存储在 mongodb 中。我想知道每个网址找到了多少个项目。从 scrapy 统计数据我可以看到'item_scraped_count': 3500但是，我需要分别对每个 start_url 进行计数。还有referer我可以用来手动计算每个 url 项目的每个项目的字段：

2016-05-24 15:15:10 [scrapy] DEBUG: Crawled (200) <GET https://www.youtube.com/watch?v=6w-_ucPV674> (referer: https://www.youtube.com/results?q=billys&sp=EgQIAhAB)

但我想知道scrapy是否有内置支持。

已接受的挑战！

上面没有东西scrapy直接支持这一点，但是您可以使用以下命令将其与蜘蛛代码分开Spider Middleware http://doc.scrapy.org/en/latest/topics/spider-middleware.html:

中间件.py

from scrapy.http.request import Request

class StartRequestsCountMiddleware(object):

    start_urls = {}

    def process_start_requests(self, start_requests, spider):
        for i, request in enumerate(start_requests):
            self.start_urls[i] = request.url
            request.meta.update(start_request_index=i)
            yield request

    def process_spider_output(self, response, result, spider):
        for output in result:
            if isinstance(output, Request):
                output.meta.update(
                    start_request_index=response.meta['start_request_index'],
                )
            else:
                spider.crawler.stats.inc_value(
                    'start_requests/item_scraped_count/{}'.format(
                        self.start_urls[response.meta['start_request_index']],
                    ),
                )
            yield output

记得激活它settings.py:

SPIDER_MIDDLEWARES = {
    ...
    'myproject.middlewares.StartRequestsCountMiddleware': 200,
}

现在您应该能够在蜘蛛统计信息中看到类似的内容：

'start_requests/item_scraped_count/START_URL1': ITEMCOUNT1,
'start_requests/item_scraped_count/START_URL2': ITEMCOUNT2,

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

每个 start_url 已抓取多少个项目的相关文章

无法“安装”plpython3u - postgresql

我正在尝试在 postgresql 中使用 python 语言像这样的事情 create or replace function test a integer returns integer as if a 2 0 return even
没有名为 crypto.cipher 的模块

我现在正在尝试加密一段时间我最近得到了这个基于 python 的密码器名为PythonCrypter https github com jbertman PythonCrypter 我对 Python 相当陌生当我尝试通过终端打开 C
通过 Scrapy 抓取 Google Analytics

我一直在尝试使用 Scrapy 从 Google Analytics 获取一些数据尽管我是一个完全的 Python 新手但我已经取得了一些进展我现在可以通过 Scrapy 登录 Google Analytics 但我需要发出 AJAX
为 Anaconda Python 安装 psycopg2

我有 Anaconda Python 3 4 但是每当我运行旧代码时我都会通过输入 source activate python2 切换到 Anaconda Python 2 7 我的问题是我为 Anaconda Python 3 4 安
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
安装 scrapy 0.22 时出错（在 Ubuntu 12.04 上）：“gcc”失败，退出状态为 1

尝试使用 pip 从命令行安装 Scrapy 时 sudo pip install scrapy我收到以下错误 error command gcc failed with exit status 1 查看错误输出中的几行我发现在尝试安装
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

来自指针的 Typedef const 引用[重复]

这个问题在这里已经有答案了可能的重复为什么允许将指针强制转换为引用 https stackoverflow com questions 5924248 why is it allowed to cast a pointer to a r
了解 django admin readonly_fields

我创建了一些代码来区分 Django admin 中的两个用户组从而导致显示所有字段为只读或仅显示其中的一些字段这些字段直接在 ModelAdmin 类中设置首先这是代码 class PersonAdmin admin ModelAd
python中通过命令查找进程

在我的 Python 脚本中我想检查是否otherscript py目前正在 Linux 系统上运行这psutil http psutil readthedocs io en latest 图书馆看起来是一个很好的解决方案 import
可以匹配具有任意小数位数的非零浮点数的最短正则表达式是什么？

可以匹配具有任意小数位数的非零浮点数的最短正则表达式是什么它应该接受像这样的数字 1 5 9652 7 00002 0 8 0 0500 0 58000 0 01 0 000005 0 9900 5 7 5 7 005 但拒绝诸如 02
破译Streamreduce函数

为什么两者都是c1 and c2不被视为两个字符串而是一个String和一个Integer Arrays asList duck chicken flamingo pelican stream reduce 0 c1 c2 gt c1 l
从列表中删除元素的最佳方法

我想知道从列表中删除元素的最佳方法有效方法是什么有功能很少 https docs python org 3 tutorial datastructures html more on lists由Python提供 some list re
如何在 Windows 8 中使用 StreamWriter 写入文件？

我在创建时遇到问题StreamWriter在windows 8中通常我只是创建一个实例只是传递一个字符串作为参数但在Windows 8中我收到一个错误表明它应该接收一个Stream 但我注意到Stream是一个抽象类有人知道吗编
Javassist注释问题

我正在尝试使用 javassist 生成我的实体类一切都很顺利直到我将 GenerationValue 注释添加到 Id 字段 Id 注释工作正常但当我添加 GeneeratedValue 时出现异常这是我的代码 ClassPoo
正则表达式：匹配包含数字和字母的字符串，但不匹配仅包含数字的字符串

Question 我希望能够使用单个正则表达式如果可能来要求字符串适合 A Za z0 9 但不允许仅包含数字或和符号的字符串以符号开头或结尾的字符串多个符号彼此相邻 Valid test 0123 t0e1s2t3 0123
C++ 支持“finally”块吗？（我经常听到的“RAII”是什么？）

C 是否支持 finally http java sun com docs books tutorial essential exceptions finally html 块是什么RAII 习语 http en wikipedia or
更改 Google 地图 V3 中的标记大小

我在用这个解释 https stackoverflow com questions 7095574 google maps api 3 custom marker color for default dot marker 7686977 7
为什么 VS 2010 中构建的应用程序与 VS 2010 中构建的应用程序的行为存在差异？ VS 2012？

我正在检查在我们的构建机器上安装 NET 4 5 是否会更改 VS 2010 生成的输出 IL 映像因为我知道 NET 4 5 中 foreach 的行为已发生变化以避免由于以下原因而出现问题访问修改后的关闭 http blogs ms
在固定位置元素上缩放 div 时丢失文本清晰度（模糊）（在移动 safari/webkit 浏览器上）

附有重现代码它基本上包含两个 div 元素红色固定和黑色带文本单击黑色 div 时它会放大并且其上的文本保持清晰然而在 4 秒后黑色 div 的 z index 发生了变化黑色 div 变成了over红色分区 B
打开文件选择器对话框时出现 Glib-GIO-ERROR

我在 Windows 7 中使用 GTK3 codeblcks IDE glade3 在我的应用程序中我有一个按钮单击该按钮应打开一个 gtk file chooser dialog 但给出填充错误 Glib GIO 错误系统上未安装
如何在 Django ORM 中更改 PostgreSQL 的默认空排序行为

默认情况下 PostgreSQL 将 NULL 值视为最高值因此对于降序查询首先对它们进行排序对于升序查询最后对它们进行排序您可以通过指定 NULLS LAST 或 NULLS FIRST 在每个查询或创建索引时修改此行为如何将
带有 Google App 脚本的 Google Sheets：如何在返回最终结果之前向单元格写入“状态”消息？

我有一个函数可能需要一段时间才能返回输出有没有办法让它在单元格中打印一条消息然后稍后用输出覆盖该消息该函数可能需要 30 秒才能运行并且可能在 20 30 个单元格中使用因此很高兴看到哪个单元格仍在计算以及哪个单元格已完成 fun
在 R 中将多个回归表输出到 Word 文档的多个页面中

我的目标是创建一个多页 Microsoft Word 文档在连续页面上包含许多格式化回归表输出理想情况下这可以使用 R Markdown 来完成我很幸运地使用Word在Word中制作了格式良好的回归表sjPlot tab model
Nhibernate ICriteria 和在查询中使用 Lambda 表达式

你好我是 NHibernate 的新手我有点困惑假设我们有一个product桌子让product表有 2 列价格1 和价格2 然后我可以通过 HQL 查询映射的产品实体如下所示 string queryString from pr
5 位 mt_rand() 数字有多唯一？

我只是想知道如果你画出 5 位数字 mt rand 数字有多独特在示例中我尝试使用此函数获取 500 个随机数的列表其中一些是重复的 http www php net manual en function mt rand php h
每个 start_url 已抓取多少个项目

我使用 scrapy 抓取 1000 个 url 并将抓取的项目存储在 mongodb 中我想知道每个网址找到了多少个项目从 scrapy 统计数据我可以看到 item scraped count 3500但是我需要分别对每个 sta

每个 start_url 已抓取多少个项目

每个 start_url 已抓取多少个项目 的相关文章

随机推荐

热门标签

每个 start_url 已抓取多少个项目的相关文章