scrapy的工作流程

2023-10-26

scrapy的工作流程如下图所示
请添加图片描述
整个工作流程,

爬虫中起始的url构造成request对象, 并传递给调度器.
引擎从调度器中获取到request对象. 然后交给下载器
由下载器来获取到页面源代码, 并封装成response对象. 并回馈给引擎
引擎将获取到的response对象传递给spider, 由spider对数据进行解析(parse). 并回馈给引擎
引擎将数据传递给pipeline进行数据持久化保存或进一步的数据处理.
在此期间如果spider中提取到的并不是数据. 而是子页面url. 可以进一步提交给调度器, 进而重复步骤2的过程

上述过程中一直在重复着几个东西,

引擎(engine)

scrapy的核心, 所有模块的衔接, 数据流程梳理.
调度器(scheduler)

本质上这东西可以看成是一个队列. 里面存放着一堆我们即将要发送的请求. 可以看成是一个url的容器. 它决定了下一步要去爬取哪一个url. 通常我们在这里可以对url进行去重操作.
下载器(downloader)

它的本质就是用来发动请求的一个模块. 小白们完全可以把它理解成是一个requests.get()的功能. 只不过这货返回的是一个response对象.
爬虫(spider)

这是我们要写的第一个部分的内容, 负责解析下载器返回的response对象.从中提取到我们需要的数据.
管道(pipeline)

这是我们要写的第二个部分的内容, 主要负责数据的存储和各种持久化操作.

经过上述的介绍来看, scrapy其实就是把我们平时写的爬虫进行了四分五裂式的改造. 对每个功能进行了单独的封装, 并且, 各个模块之间互相的不做依赖. 一切都由引擎进行调配. 这种思想希望你能知道–解耦. 让模块与模块之间的关联性更加的松散. 这样我们如果希望替换某一模块的时候会非常的容易. 对其他模块也不会产生任何的影响.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

python

爬虫

scrapy的工作流程的相关文章

使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

七、Hadoop系统应用之搭建Hadoop高可用集群（超详细步骤指导操作，WIN10，VMware Workstation 15.5 PRO，CentOS-6.7）

Hadoop集群搭建前安装准备参考一 Hadoop系统应用之安装准备一超详细步骤指导操作 WIN10 VMware Workstation 15 5 PRO CentOS 6 7 一 Hadoop系统应用之安装准备二超详细步骤指导
大话赛宁云

如今随着数字时代的飞速发展安全漏洞存在于网络空间中对系统造成极大的安全隐患为网络攻击者的恶意入侵提供了捷径对此解决这一困境要秉承快速自动安全的解决标准首先需要高技术手段的支持实施常态化演练及时发现安全漏洞测评危
暑期必须要学习的52个Python+OpenCV实战项目

点击上方小白学视觉选择加星标或置顶重磅干货第一时间送达有个粉丝前几天问我本人小白一枚看了很多深度学习机器学习以及图像处理等视频和书之后理论有一些长进但是实际运用能力不足从反面也是由于理论认识不足所致所以想问问有
完整的vuejs + django 前后端分离项目实践（登录，注册，权限控制，可视化）

完整的vuejs django 前后端分离项目实践登录注册权限控制可视化 vuejs是一个流行的前端框架 django是一个python非常流行的web框架在某期的作业中需要基于它两实现一个前端后分离并且拥有权限管理的系统声
哈夫曼编码

哈夫曼编码 Huffman Coding 又称霍夫曼编码是一种编码方式哈夫曼编码是可变字长编码 VLC 的一种 Huffman于1952年提出一种编码方法该方法完全依据字符出现概率来构造异字头的平均长度最短的码字有时称之为最佳编码
sqlmap配置

1 我们先去sqlmap官网上下载sqlmap的压缩包 2 把解压后的压缩包放在python27的安装路径下这个路径指的是然后配置环境变量新增一个D python2 7 17 sqlmap sqlmapproject sqlmap 1
感谢导师每次组会的锻炼，让我收获今年最想去的一个offer

题解名单中出现过的人 a input tuple1 tuple Tom Tony Allen Cydin Lucy Anna print tu 神策校园招聘来啦你想要跟老板们扁平化相处吗你想每天吃不完的水果零食饮品不限量吗毕业第一份
笔记-flowable工作流开启节点自动跳过

flowable工作流开启节点自动跳过笔记开始准备工作 1 flowable支持流程跳转的功能在流程图绘画的时候可以设置一个表达式让节点自动跳过 2 在流程开启时需要设置参数笔记开始我们在使用工作流时经常会遇到需要自动跳过节点
HTML

HTML 下拉框和文本域文件域 1 下拉框在平时我们填问卷或者冲浪的时候做筛选的时候都会遇到下拉框 html写一个下拉框的方式是使用select标签 name和id是默认属性
Android问题集（五）——解决提示：The method **（） is undefined for the type ***（）

使用情景在非Activity子类方法中有时想要调用Activity类特有的方法系统会提示无该方法The method is undefined 思路将Activity的父类Context作为方法参数通过context调用该方法例
Fckeditor常见漏洞的挖掘与利用整理汇总

查看编辑器版本 FCKeditor whatsnew html 2 Version 2 2 版本 Apache linux 环境下在上传文件后面加个突破测试通过 3 Version lt 2 4 2 For php 在处理PHP 上传的
Django 快速搭建博客第十一节（文章阅读量统计，自动生成文章摘要）

这一节主要做一些修补工作一个是文章阅读量的统计另一个是自动生成文章摘要内容 1 文章阅读量的统计 1 文章阅读量的统计我们需要在model下的Post类中新加入一个views 字段用来统计文章被阅读的数量 blog models p
是否二叉搜索树

习题4 3 是否二叉搜索树 25分本题要求实现函数判断给定二叉树是否二叉搜索树函数接口定义 bool IsBST BinTree T 其中BinTree结构定义如下 typedef struct TNode Position type
Go语言函数

http www jb51 net article 56831 htm Go语言中的函数有系统函数和自定义函数 1 系统函数系统函数就是Go语言自带的函数系统函数一般根据功能封装在不同的包内比如Print Printf Println
微信聊天记录导出工具WeChatExporter开源啦！

2019年08月21日更新距离第一次发布软件已经有了许多新功能和稳定性上的提升本文的一些内容已经过时欢迎直接到GitHub上看ReadMe https github com tsycnh WeChatExporter 之前曾经写过一个
消息队列 - RabbitMQ - 拓展

1 Message 状态 Message 在投递时如果当前 Queue 没有 Message 且有 Consumer 已经订阅了这个 Queue 那么该 Message 会直接发送给 Consumer 不会经过 Queue 存储 Mess
在 Substance Painter中自定义Shader

为什么要学习在Substance Painter中自定义Shader 答需要实现引擎与Substance Painter中的渲染效果一致材质的配置也一致所见即所得基础概述首先在着色器设置这里我们可以查看当前渲染使用的着色器如果
ETL笔记——第五章数据清洗与校验（数据检验）

一数据一致性处理通过Kettle工具使用弱一致性对数据表Personnel Information中的数据进行一致性处理即利用数据表Personnel Information中的字段GENDER中的值训练出一个健康值预测模型用于将
Android学习之Activity源码的理解(一)

一 Activity为Android系统中四大组件之一是Android程序的呈现层并通过界面与用户进行交互因此理解Activity源码是有必要的二之前我写过一篇文章 http blog csdn net u012561176 ar
scrapy的工作流程

scrapy的工作流程如下图所示整个工作流程爬虫中起始的url构造成request对象并传递给调度器引擎从调度器中获取到request对象然后交给下载器由下载器来获取到页面源代码并封装成response对象并回馈给引擎引擎

scrapy的工作流程

scrapy的工作流程 的相关文章

随机推荐

热门标签

scrapy的工作流程的相关文章