Scrapy命令行详解

2023-11-02

1.创建项目：

scrapy startproject myproject [project_dir]

这将在project_dir目录下创建一个Scrapy项目。如果project_dir没有指定，project_dir将与myproject同名。

在这里插入图片描述
接下来，进入新项目目录：

cd project_dir

在这里插入图片描述

2.创建爬虫

scrapy genspider mydomain mydomain.com

在这里插入图片描述

可用的工具命令

我们始终可以通过运行以获取有关每个命令的更多信息：

scrapy <command> -h

你可以看到所有可用的命令：

scrapy -h

有两种命令，一种只能在Scrapy项目内部工作（特定于项目的命令）和那些在没有活动的Scrapy项目（全局命令）的情况下工作的命令，尽管从项目内部运行时它们可能表现略有不同（因为他们会使用项目覆盖设置）。

全局命令：

（没有项目时也可以使用）

startproject
genspider

创建爬虫：

scrapy genspider [-t template] <name> <domain>

列出创建spider所有可用模板：

scrapy genspider -l

指定模板生成spider ：

scrapy genspider -t crawl zhihu www.zhihu.com

可以从下图看到，py文件中使用了一个模板：
在这里插入图片描述

settings
获取配置文件信息
runspider
在Python文件中运行自包含的蜘蛛，而无需创建项目。
shell
见上文。https://blog.csdn.net/z714405489/article/details/84000464
获取数据后进入交互模式，可以使用程序中的方法进行操作
fetch
类似于requests的url请求。可以添加参数[–nolog]不显示响应头；[–headers]；显示响应头；[–no重定向]禁止重定向

 scrapy fetch <url>

在这里插入图片描述

view
会把请求的数据保存成一个文件并在浏览器中打开。
version
输出版本

仅限项目的命令：

（只能在有项目存在的情况下使用）

crawl
运行爬虫，后面的参数是spider的名称——

scrapy crawl spider

在这里插入图片描述

check
检查语法是否有错误

scrapy check

在这里插入图片描述

list
返回项目中所有spider的名称。
edit
使用这个命令可以在命令行中编辑spider。（在windows下貌似用不了。反正还是用IDE来编辑最方便了）
parse
获取给定的URL并使用处理它的spider解析它
bench
爬行速度

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

Scrapy框架

命令行

Scrapy命令行详解的相关文章

深入了解JVM的底层原理

引言什么是JVM JVM在整个jdk java 运行环境中处于最底层负责与操作系统的交互用来屏蔽操作系统环境提供一个完整的Java运行环境因此也就虚拟计算机操作系统装入JVM是通过jdk中Java exe来完成通过下面4步来
蒙特卡洛模拟计算风险价值VAR之R语言实现

一解析VAR 当在分析方法中计算风险价值 VAR 时我们需要假设金融工具的返回遵循一定的概率分布最常用的是正态分布这也是为什么我们通常称它为delta normal方法要计算VAR 我们需要找到一个阈值 T 来确定显著性如95
ApiSix 配置 jwt-auth认证

有问题要学会阅读apisix官方文档养成好习惯点我开始学习 1 为签发 token 的 API 配置一个 Route 该路由将使用 public api 插件在对应的服务器执行以下命令我尝试通过面板来创建这个Route 发现创建的时
Fedora21 入门体验笔记

以前都是由于对linux的好奇所以把各种版本都装了个遍但每次都会因为某些原因 eq 不能玩游戏用很麻烦而且不爽没用几天然后又回到windows 而且最后什么都没有留下这一次是想真正学习linux 顺便记下使用过程中遇到的一些问题

随机推荐

OpenGL 入门教程(八)

OpenGL 入门教程八 OpenGL中使用RGBA色彩体系 RGB为红绿蓝三原色 A为值该值代表色彩融合时所占的比例颜色是顶点的重要属性之一没有色彩的世界是毫无生气的使用glColor R G B A 设定当前颜色此后定义所
pyecharts各种图表实现（超级全）

目录平面直角坐标系直方图折线图箱形图散点图带涟漪效果散点图 k线图热力图象型图层叠图地理图表 GEO 地理坐标系 MAP 地图 BMAP 百度地图基本图表饼图漏斗图仪表盘水球图日历图关系图平行坐标系极坐
Springboot整合FastDFS

文章目录一 FastDFS Client的实践 1 FastDFS Client的主要特性 2 SpringBoot测试操作FastDFS 1 SpringBoot的配置 2 测试springboot环境下javaapi对分布式文件系统上
商汤PySot的配置使用（1）---siam跟踪算法demo、test、eval

文章目录简介一环境配置二 demo 2 1 步骤一加入工程的python路径 2 2 步骤二下载模型 2 3 步骤三编辑demo 三 test 3 1 步骤一数据集 json文件准备 3 2 步骤二 OTB100等数据集的注
【区块链介绍】区块链的来龙去脉

1 了解区块链技术的起源分布式系统弱中心化是区块链思想的核心 P2P网络为区块链提供了网络层基础架构任何一个节点都能与其他节点进行传输与其它节点保持一致共识算法区块链技术的核心实现了数据的一致存储密码学为区块链数据的传输
高数——彻底搞懂如何判断反常积分收敛和发散

反常积分收敛和发散预备知识复杂的反常积分真题预备知识 1 极限不定积分与定积分的基本计算 2 找等价无穷小 3 无穷小和无穷大速度的比较趋向无穷大的速度 x x x x xx gt e
Celery介绍以及使用

文章目录 celery 一什么是celery 1 celery是什么 2 使用场景 3 Celery的优点 4 Celery的安装二 Celery执行异步任务 1 创建异步任务执行文件消费者 2 创建生产者文件 3 创建result文
InnoDB引擎架构

逻辑存储结构表空间 ibd文件一个mysql实例可以对应多个表空间用于存储记录索引等数据段分为数据段索引段回滚段 InnoDB是索引组织表数据段就是B 树的叶子节点索引段即为B 树的非叶子节点段用来管理多个Extent
Vue中vuex的使用(三)

vuex中getters的使用 1 概念当state中的数据需要经过加工后再使用时可以使用getters加工 2 在store js中追加getters配置准备getter 用于将state中sum加工 const getters b
vue如何获取当前页面的url

如果你使用 vue router 文档在这里路由信息对象的属性 const routes path portfolio year review component Portfolio 这个样子获取 this route params ye
二十一.数据结构学习笔记.1

一抽象数据类型抽象数据类型 Abstract Data Type ADT 是一些操作的集合抽象数据类型是数学的抽象在ADT定义中根本没涉及如何实现这些操作例如表集合图及它们的操作它们都可以看作抽象数据类型就像整数实数和
cmake：if

有条件地执行一组命令概要 if
java笔记:抽象方法与抽象类

抽象方法和抽象类 1 规则抽象方法和抽象类必须用abstract进行修饰有抽象方法的类只能被定义为抽象类抽象类中可以没有抽象方法抽象类不能被实例化无法使用new调用抽象类的构造器创建抽象类的实例无法创建实例抽象类中可以包含成员
网络安全渗透测试实验一

1 实验目的和要求理解网络扫描网络侦察的作用通过搭建网络渗透测试平台了解并熟悉常用搜索引擎扫描工具的应用通过信息收集为下一步渗透工作打下基础系统环境 Kali Linux 2 Windows 网络环境交换网络结构实验工具
pyqt5数据库使用教程

1 关于连接sqlite数据库时使用QSqlTableModel模型查看具体数据通过行号列名称来获取某单元格的数据注 model中的一行称为一条record 一列称为一条field 方法 1 使用QSqlRecord类 QSqlRec
Python中的pass语句详解

作者永劫一概述在本文中我们将详细介绍Python中的pass语句包括其定义作用以及使用场景 pass语句在Python编程中是一个实用的占位符它可以让程序运行在某些特定的情况下而不引发任何错误二 pass语句的定义 pa
scrapy框架之post请求

scrapy框架之post请求 1 post请求 2 通过scrapy框架用爬虫发起post请求 3 使用Scrapy框架破解验证码 1 post请求首先从浏览器打开百度翻译去抓一下接口右键检查一开始是network是什么都没有的
在ubuntu上安装pcl库并配置vscode使用cmake生成可执行文件

文章目录在ubuntu上安装pcl库并配置vscode使用cmake生成可执行文件先列举一下我踩的坑一安装vtk7 1 QT5 12 6 VTK7 1 1 二安装pcl1 9 1 安装依赖库安装PCL库三使用vscode c
根据对象的某一个属性排序

根据lenval进行排序思路使用sort函数 const obj any ID 1 lenval 1 ID 2 lenval 3 ID 3 lenval 2 function compare property return functi
Scrapy命令行详解

官方文档 1 创建项目 scrapy startproject myproject project dir 这将在project dir目录下创建一个Scrapy项目如果project dir没有指定 project dir将与mypro

Scrapy命令行详解

1.创建项目：

2.创建爬虫

可用的工具命令

全局命令：

仅限项目的命令：

Scrapy命令行详解 的相关文章

随机推荐

热门标签

Scrapy命令行详解的相关文章