【scrapy】scrapy爬取数据指南

2023-11-14

scrapy是爬虫界常用的基于Python爬虫框架，但是网上找了很多这类的文章，发现有多处错误，故为了让刚想尝试爬虫的蜘蛛们少走点坑，故把最新的方法奉上。
在此之前，请先更新你的pip版本，并安装scrapy , pymysql。

pip install scrapy
python3 -m pip install pymysql

首先我的目录结构是这样的，你可以使用如下命令进行初始化

scrapy startproject SpiderObject
//参考：https://blog.csdn.net/skullfang/article/details/78607942

1.编写items.py

import scrapy

class MovieItem(scrapy.Item):
    name = scrapy.Field()
    movieInfo = scrapy.Field()
    star = scrapy.Field()
    number = scrapy.Field()
    quote = scrapy.Field()
    pass

2.编写MovieSpider.py

# -*- coding: utf-8 -*-
from scrapy.spider import Spider
from scrapy.http import Request
from scrapy.selector import Selector
from SpiderObject.items import MovieItem

import requests
import time

class MovieSpider(Spider):
     # 爬虫名字
    name = 'MovieSpider'
     # 反爬措施
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
    url = 'https://movie.douban.com/top250'
     # start_urls = ['movie.douban.com']

    def start_requests(self):
        # url = 'https://movie.douban.com/top250'
        yield Request(self.url, headers=self.headers, callback=self.parse)

    def parse(self, response):
        item = MovieItem()
        selector = Selector(response)
        movies = selector.xpath('//div[@class="info"]')
        for movie in movies:
            name = movie.xpath('div[@class="hd"]/a/span/text()').extract()
            message = movie.xpath('div[@class="bd"]/p/text()').extract()
            star = movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()
            number = movie.xpath('div[@class="bd"]/div[@class="star"]/span/text()').extract()
            quote = movie.xpath('div[@class="bd"]/p[@class="quote"]/span/text()').extract()
            if quote:
                quote = quote[0]
            else:
                quote = ''
            item['name'] = ''.join(name)
            item['movieInfo'] = ';'.join(message).replace(' ', '').replace('\n', '')
            item['star'] = star[0]
            item['number'] = number[1].split('人')[0]
            item['quote'] = quote
            yield item
        nextpage = selector.xpath('//span[@class="next"]/link/@href').extract()
        time.sleep(3)
        if nextpage:
            nextpage = nextpage[0]

            yield Request(self.url + str(nextpage), headers=self.headers, callback=self.parse)

3.编写pipelines.py与mysql数据库进行连接

import pymysql

class MoviePipeline(object):
    def __init__(self):
        # 连接数据库
        self.conn = pymysql.connect(host='127.0.0.1',port=3306,user='root',passwd='root',
                                    db='DOUBANDB',charset='utf8')
        # 建立游标对象
        self.cursor = self.conn.cursor()
        self.cursor.execute('truncate table Movie')
        self.conn.commit()

    def process_item(self, item, spider):

        try:
            self.cursor.execute("insert into Movie (name,movieInfo,star,number,quote) \
            VALUES (%s,%s,%s,%s,%s)", (item['name'],item['movieInfo'],item['star'],
                                      item['number'],item['quote']))
            self.conn.commit()

        except pymysql.Error:
            print("Error%s,%s,%s,%s,%s" % (item['name'],item['movieInfo'],item['star'],
                                              item['number'],item['quote']))
            return item

4.设置settings.py

这里写图片描述

5.搭建mysql数据库

我们通过代码自动访问mysql数据库，
前提是你要先开启mysql连接，并在127.0.0.1下新建数据库DOUBANDB，如图所示：
这里写图片描述

如何用代码自动添加并设计Movie表结构呢：
新建conn_sql.py

import pymysql

db = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='root', db='DOUBANDB', charset='utf8')

cursor = db.cursor()

cursor.execute('DROP TABLE IF EXISTS MOVIE')

sql = """CREATE TABLE MOVIE(
          id INT NOT NULL PRIMARY KEY AUTO_INCREMENT COMMENT '自增 id',
          name VARCHAR(1024) NOT NULL COMMENT '电影名',
          movieInfo VARCHAR(1024) DEFAULT NULL COMMENT '电影简介',
          star VARCHAR(20) NOT NULL COMMENT '评分',
          number VARCHAR(1024) NOT NULL COMMENT '评价人数',
          quote VARCHAR(1024) NOT NULL COMMENT '简评',
          createtime DATETIME DEFAULT CURRENT_TIMESTAMP COMMENT '添加时间'
          )"""

cursor.execute(sql)

db.close()

6.执行爬取并存入

只需要执行一行代码：

scrapy crawl MovieSpider

7.结果

这里写图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

爬虫

【scrapy】scrapy爬取数据指南的相关文章

Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

PCB天线设计

PCB天线概述什么是PCB天线顾名思义就是在PCB上印制了一根走线可以将其画成直线走线反转的F形走线蛇形或圆形走线等长度为四分之一波长就基本可以形成天线将电信号辐射出去或接收信号设计指标在上一期文章深入解读无线通信中的
二叉树建立

结束二叉树输入如何结束创建二叉树的输入那把二叉树补全前序输入 AB C 中序 B A C 后序 B CA 输出结果如下代码如下 include
前端性能优化：7.页面渲染优化

本文将主要关注浏览器获取到资源后进行渲染部分的相关优化内容 7 1 页面渲染性能页面渲染阶段对性能体验的应i昂与资源加载阶段同样重要而对于设计高交互频次的应用来说可能更加重要本节将整个渲染过程划分为五个串行阶段进行概述优化渲染的实
大众点评校招助理产品经理-笔试题分析（下）

针对大众点评网的任何一个产品的一个需要改进的点信息数据或功能体验都行给出你的分析和改进规划希望尽可能的全面深入详细 1 改进产品版本与使用机型使用版本大众点评Android客户端V5 2版本机型 HTC Desire HD
memset in C++ and C

definition memset是计算机中C C 语言函数将s所指向的某一块内存中的前n个字节的内容全部设置为ch指定的ASCII值第一个值为指定的内存地址块的大小由第三个参数指定这个函数通常为新申请的内存做初始化工作其返回值
Failed to execute goal org.apache.maven.plugins:maven-checkstyle-plugin

idea编译项目时出现如下报错 ERROR Failed to execute goal org apache maven plugins maven checkstyle plugin 3 0 0 check validate on p
k8s学习笔记（二）：k8s的组件介绍

文章目录 k8s组件介绍架构图角色控制平面组件 Control Plane Components kube apiserver 端口容器 etcd 端口容器 kube scheduler 容器端口 kube controller
Postman脚本——断言测试

pm对象提供了测试相关功能 pm test testName String specFunction Function Function 测试函数 pm expect assertion Function Assertion 允许在响应数据
[552]python实现聚类算法(6种算法）

1 Mean shift 1 概述 Mean shift 即均值迁移的基本思想在数据集中选定一个点然后以这个点为圆心 r为半径画一个圆二维下是圆求出这个点到所有点的向量的平均值而圆心与向量均值的和为新的圆心然后迭代此过程
AI炼丹技巧

目录样本不平衡 1 什么是样本不平衡问题 2 样本不平衡会对我们模型的训练带来哪些影响呢 3 在机器学习中解决样本不平衡问题有哪些通用的解决策略 4 在深度学习中有哪些解决样本不平衡的方法 5 从模型评价指标的角度重新审视训练好的模型
计算机中丢失msvcp140.dll怎么解决？分享三个解决方法

当我们在运行某些应用程序时可能会遇到缺少msvcp140 dll 或找不到msvcp140 dll 的错误提示这意味着我们的系统缺少这个重要的动态链接库文件 msvcp140 dll丢失会造成很多软件无法正常启动运行下面小编就分享
全网最全！Python爬虫requests库教程(附案例)

1 requests 库简介 Requests 是一个为人类设计的简单而优雅的 HTTP 库 requests 库是一个原生的 HTTP 库比 urllib3 库更为容易使用 requests 库发送原生的 HTTP 1 1 请求无需手
【MySQL高级篇笔记-性能分析工具的使用 (中) 】

此笔记为尚硅谷MySQL高级篇部分内容目录一数据库服务器的优化步骤二查看系统性能参数三统计SQL的查询成本 last query cost 四定位执行慢的 SQL 慢查询日志 1 开启慢查询日志参数 2 查看慢查询数目 3
常见的排序算法及其复杂度分析

1 常见算法分类十种常见排序算法一般分为以下几种非线性时间比较类排序交换类排序快速排序和冒泡排序插入类排序简单插入排序和希尔排序选择类排序简单选择排序和堆排序归并排序二路归并排序和多路归并排序线性时间非比较类排序计数
黑盒测试与白盒测试的区別

黑盒测试与白盒测试是软件测试中两种不同的测试方法它们的主要区别在于测试者对被测试软件的了解程度下面我们将详细介绍这两种测试方法的特点和适用场景一黑盒测试黑盒测试又称为功能测试是针对被测试软件的功能进行测试的一种测试方法测试者
linux 进程几种状态,linux进程状态

linux系统最常用的命令莫过于ps 经常要用其查看linux的进程和线程情况此文我们着重来看进程进程又分为以下几种状态 1 运行正在运行或在运行队列中等待 2 中断休眠中受阻在等待某个条件的形成或接受到信号 3 不可中断收到
Kotlin Coroutines Flow 系列(一) Flow 基本使用

一 Kotlin Flow 介绍 Flow 库是在 Kotlin Coroutines 1 3 2 发布之后新增的库官方文档给予了一句话简单的介绍 Flow cold asynchronous stream with flow build
C# socket异步通信服务器和客户端

本文章向大家介绍C socket异步通信服务器和客户端主要包括C socket异步通信服务器和客户端使用实例应用技巧基本知识点总结和需要注意事项具有一定的参考价值需要的朋友可以参考一下服务器代码只要客户端连接进来就会接收到Se
Qt之QTableView 保持滚动条自动滚动到底部

在使用QTableView添加数据时当数据量超出显示范围时会自动的打开滚动条如果设置了在需要时打开滚动条属性而默认的是滚动条一直是保持在最顶部但是有些时候我们添加数据时是需要查看添加的最新结果的所以一般都会把滚动条滚动到最新数据那
【scrapy】scrapy爬取数据指南

scrapy是爬虫界常用的基于Python爬虫框架但是网上找了很多这类的文章发现有多处错误故为了让刚想尝试爬虫的蜘蛛们少走点坑故把最新的方法奉上在此之前请先更新你的pip版本并安装scrapy pymysql pip inst