Python爬虫从入门到精通:（39）增量式爬虫_Python涛哥

2023-11-13

概念

检测网络数据更新的情况，以便于爬取到最新更新出来的数据

实现核心

去重

实战中去重的方式：

记录表

记录表需要记录什么？记录的一定是爬取过的相关信息。

例如某电影网：

爬取过的相关信息：每一部电影详情页的url
只需要使用某一组数据，该组数据如果可以作为该部电影的唯一标识即可，刚好电影详情页的url就可以作为电影的唯一标识。

只要可以标识电影唯一标识的数据我们可以统称位数据指纹。

去重的方式对应的记录表：

python中的set集合（不可以）

set集合无法持久化存储
redis中的set可以的

可以持久化存储

代码案例：

zls.py

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from redis import Redis
from zlsPro.items import ZlsproItem


class ZlsSpider(CrawlSpider):
    name = 'zls'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.4567kp.com/frim/index1.html']
    coon = Redis(host='127.0.0.1', port=6379)
    rules = (
        Rule(LinkExtractor(allow=r'frim/index1-\d+\.html'), callback='parse_item', follow=False),
    )

    def parse_item(self, response):
        li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
        for li in li_list:
            title = li.xpath('./div/div/h4/a/text()').extract_first()
            detail_url = 'http://www.4567kp.com' + li.xpath('./div/div/h4/a/@href').extract_first()

            ex = self.coon.sadd('movie_urls', detail_url)
            # ex==1插入成功，ex==0插入失败
            if ex == 1:  # detail_url表示的电影没有存在于记录表中
                # 爬取电影数据：发起请求
                print('有新数据更新，正在爬取新数据....')
                item = ZlsproItem()
                item['title'] = title
                yield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})
            else:  # 存在于记录表中
                print('暂无数据更新！')

    def parse_detail(self, response):
        # 解析电影简介
        desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[2]/text()').extract_first()
        item = response.meta['item']
        item['desc'] = desc

        yield item

pipeline.py

class ZlsproPipeline:
    def process_item(self, item, spider):
        coon=spider.coon #redis的连接对象
        coon.lpush('movieDate',item)
        return item

items.py

import scrapy

class ZlsproItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    desc = scrapy.Field()

数据指纹一般是经过加密的

上述案例的数据指纹没有必要加密。

什么情况数据指纹需要加密？

如果数据的唯一标识标识的内容数据量比较大，可以使用hash将数据加密成32位密文。
目的是为了节省空间。

关注Python涛哥！学习更多Python知识！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

开发语言

Python爬虫从入门到精通:（39）增量式爬虫_Python涛哥的相关文章

Scrapy 在抓取一长串 url 时陷入困境

我正在抓取一个大的 url 列表 1000 左右并且在设定的时间后爬虫程序会以 0 页分钟的速度爬行爬行时问题总是出现在同一个位置 url 列表是从 MySQL 数据库检索的我对 python 和 scrapy 相当陌生所以我不
Tastypie 与 application/x-www-form-urlencoded

我有点难以弄清楚下一步应该做什么我正在使用 tastypie 为我的 Web 应用程序创建 API 从另一个应用程序特别是 ifbyphone com 我收到一个没有标题的 POST 如下所示 post data http myapp
如何使用 python 从嵌套表结构中识别最终父级？

我有下表我的问题是我如何以编程方式识别最终父级以下是通过示例解释的规则 the id 5 0的父母是51 0 身份证号51 0没有父母因此 id5 0的最终父级是51 0 the id 6 0的父母是1 0 身份证号1 0的父母是1
为什么具有复杂无穷大的 NumPy 运算会导致有趣的结果？

我注意到复杂的无穷大的有趣结果 In 1 import numpy as np In 2 np isinf 1j np inf Out 2 True In 3 np isinf 1 1j np inf Out 3 True In 4 np
python 类的属性不在 __init__ 中

我想知道为什么下面的代码有效 usr bin env python3 import sys class Car def init self pass if name main c Car c speed 3 c time 5 print c
不使用 graphviz/web 可视化决策树

由于某些限制我无法使用 graphviz webgraphviz com 可视化决策树工作网络与另一个世界是封闭的问题是否有一些替代实用程序或一些 Python 代码用于至少非常简单的可视化可能只是决策树的 ASCII 可视化 py
如何在 sqlalchemy 中创建基于文字的查询？

我创建了一个函数来创建表达式 def test operator1 operation operator2 return literal column operator1 op operation operator2 现在当我用 test
Pandas：向量化局部范围操作（[i:i+2] 行的最大值和总和）

我希望在数据帧中的每一行的局部范围内进行计算同时避免速度缓慢for环形例如对于下面数据中的每一行我想找到未来 3 天内包括当天的最高气温以及未来 3 天内的总降雨量 Day Temperature Rain 0 30 4 1 3
如何使用子进程打开新的浏览器选项卡？

我正在打开一个新的 IE 窗口 subprocess Popen r os environ PROGRAMFILES Internet Explorer IEXPLORE EXE Call URL 当 IE 关闭时这很好但即使打开它也会生
将 Python 控制台集成到 GUI C++ 应用程序中

I m going to add a python console widget into a C GUI below some other controls 许多类将暴露给 python 代码包括一些对 GUI 的访问也许我会考虑 P
pip-tools 的干净设置不会编译非常基本的 pyproject.toml

使用全新的pip tools设置总是会导致Backend subprocess exited error pyproject toml project dependencies openpyxl gt 3 0 9 lt 4 在仅包含上述 p
wxPython：更新wx.ListBox列表

我在 python 程序中有一个 wx ListBox 我不想在 wx Timer 更新时更改其中的列表我的计时器正在工作我只是不知道如何更改它显示的列表这是一个例子 http www daniweb com code snippet
Celery 设计帮助：如何防止并发执行任务

我对 Celery AMQP 相当陌生正在尝试提出一个任务队列工作人员设计来满足以下要求我有多种类型的每用户任务例如 TaskA TaskB TaskC 这些每用户任务中的每一个都为系统中的一个特定用户读取写入数据因此
如何在 Python 中包含 PHP 脚本？

我有一个 PHP 脚本 news generator php 当我包含它时它会抓取一堆新闻项并打印它们现在我在我的网站 CGI 中使用 Python 当我使用 PHP 时我在新闻页面上使用了这样的内容为了简单起见我删掉了这个
如何使用 Python Pandas 制作 DataFrame 切片并在特定切片中“fillna”？

问题让我们从 Kaggle 获取泰坦尼克号数据集我有包含 Pclass 性别和年龄列的数据框我需要用特定组的中位数填充年龄列中的 NaN 如果是来自一等的女性我想用一等女性的中位数填写她的年龄而不是整个年龄列的中位数问
python 中的异步编程

python 中有异步编程的通用概念吗我可以为一个函数分配一个回调执行它并立即返回主程序流无论该函数的执行需要多长时间吗您所描述的主程序流程在另一个函数执行时立即恢复不是通常所说的异步又名事件驱动编程而是多任务又名
在 Django 中翻译文件时的 Git 命令

我在 Django 中有一个现有的应用程序我想在页面上添加翻译在页面上我有 trans Projects 在 po 文件中我添加了 templates staff site html 200 msgid Projects msgid P
Flask APScheduler + Gunicorn 工作人员 - 在套接字修复后仍在运行任务两次

我有一个 Flask 应用程序我使用 Flask APScheduler 在我的数据库上运行计划查询并通过 cron 作业发送电子邮件我通过 Gunicorn 使用以下配置运行我的应用程序并通过主管进行控制 program myapp
Tensorboard——High-level节点的计算时间与其子节点计算时间的总和不同

继tutorial https www tensorflow org programmers guide graph viz在 TensorFlow 上我试图使用张量板来理解运行时统计数据我发现代表名称范围的高级节点的计算时间不等于其子
为什么 Python exec 中的模块级变量无法访问？

我正在尝试使用Pythonexec in a project https github com arjungmenon pypage执行嵌入的Python代码我遇到的问题是在模块级 in an exec声明是难以接近的来自同一模块中定义的

随机推荐

【0325】分组密码

分组密码体制概述分组密码体制 Block cipher 是在密钥k控制下一次变换一个明文数据块又称分组的密码体制特点速度快易于标准化和便于软硬件实现等特点设计原则和评估针对安全性的两个基本原则扩散和混淆对抗统计分析扩
Solidity学习代码示例 - 第一节

掌握了Solidity的基本语法后我们开始从一些简单的代码层面上来慢慢深入学习Solidity这门语言在这篇文章中我将会在代码层面带着大家去实现我们想要的逻辑带着大家一起感受Solidity这门语言我们所有的代码编译部署都是在智能
elementUI实现上传视频时获取视频时长以及设置视频格式、大小限制

在 before upload 属性绑定的事件中可以获取上传视频的信息对象通过给这个信息对象内的属性添加判断条件就可以实现对视频的格式及大小进行限制对于视频时长也包含在信息对象中根据下面代码所示方法提取即可想了解如何给上传图片添加
刷脸支付只需一个确认的眼神就可以付款

让我们来设想一下这样的场景你早上匆匆忙忙赶着出门买东西却忘记带手机没关系带脸就OK 腾出两只手拎更多的战利品在结账时候刚好客户打来电话挂掉又不礼貌没关系刷脸支付只需要一个确认的眼神还有很多方面刷脸支付将像当年的支付宝一样
spring mongodb geo 位置搜索服务示例

1 项目关联jar文件 2 配置mongodb xml文件
不知道麦克风阵列是何方神圣?这篇文章告诉你!

转自 http www ikanchai com 2016 0522 80416 shtml 城宇智能硬件发布砍柴网推荐转载需注明上个世纪七八十年代麦克风阵列技术已经开始应用到语音技术的研究中 2000年左右业界开始慢慢深入进
Java面试复习提纲

Java面试复习提纲作者 egg 邮箱 xtfggef gmail com 微博 http weibo com xtfggef 博客 http blog csdn net zhangerqing 本章主要介绍一下面对即将来临的Java面试
apache24服务启动

声明本文禁止转载本文所有观点和概念都系个人总结难免存在疏漏之处为不至于诱导初学者误入歧途望各位以自己实践为准特此声明如有错误请告知服务链接 https pan baidu com s 1VS xSo3eC7TxihciN
仅四步教你快速接入Seata分布式事务

简介 Seata 是一款开源的分布式事务解决方案致力于提供高性能和简单易用的分布式事务服务 Seata 将为用户提供了 AT TCC SAGA 和 XA 事务模式为用户打造一站式的分布式解决方案本篇文章将以视频与文字介绍的形式指引你
Qt+SDL播放YUV视频文件

播放一个yuv420p格式的文件 yuv的格式与rgb格式的存储方式不同 yuv数据是 yyyyyyyy uu vv 的存储 rgb是rgba rgba rgba 存储同样一帧图像 yuv420会比rgb数据更小读取时就要注意数据存储格
关于文件读写操作中ios::app与ios::ate的区别

前几天在用到对文件操作的时候上网查询了一下当时只看到说在文件末尾继续写是用ios ate 结果当然是屡试爽了后来又仔细看了一下文章才发现ios app 用这个果然就可以了 Google了一下两者的区别出现了一个表格还是说的很详细吧
数据分析36计(17)：Uber的 A/B 实验平台搭建

往期系列原创文章集锦数据分析36计 16 和 A B 测试同等重要的观察性研究群组研究 VS 病例对照方法数据分析36计 15 这个序贯检验方法让 A B 实验节约一半样本量数据分析36计 14 A B测试中的10个陷阱一不注意
C语言基础（底层、运算符）

一 C语言底层程序算法数据 1 整型字符类型字符常量 a 一个字符字符串常量 abcd 多个字符字符变量 1 定义字符有无符号类型变量 2 引用变量引用变量的内容 2 浮点型 1 浮点型常量十进制 3 14 科学表示
Aix上的压缩与解压

1 compress生成一个后缀为 Z的压缩文件可用compress d或者uncompress解压后缀为 Z的文件若压缩的文件是文本文件可用zcat直接查看压缩文件不需要先解压再用cat 2 gzip生成一个后缀为 gz的压缩文
python backtrace注意事项

1 当python异常时 web服务器一般会记录异常日志比如uwsgi 如果用python自带的web server 那么启动时要把输出重定向一下 2 有时要把异常backtrace与普通日志记录在一起可以在logging xxx 函数
js浮点数计算精度问题

js语言在进行数字计算时会发生计算精度失真的情况因为javascript使用了IEEE 745浮点数表示法在运算是会将浮点数转换为二进制数字计算例如 0 1 gt 0 0001100110011001 无限 0 2 gt 0 0011
【干货】今日头条的新闻推荐算法原理

信息越来越海量用户获取信息越来越茫然而推荐算法则能有助于更好的匹配海量内容和用户需求使之更加的有的放矢为让产业各方更好的了解算法分发的相关技术和原理我们特整理了当下最具影响力的平台的相关干货和各方分享本期微信我们将推荐影视
pip安装pytorch 清华镜像

每次要搭配环境的时候就头大资源基本是国外下载起来特别慢有些连服务器都访问不了不用镜像按照书上或者网上的正常流程搭配环境基本上都是以超时告终然后就在网上疯狂找资源网上有人说是个程序员都会翻墙我可能是个假的程序员吧什么都不会
Arthas watch命令使用

目录属性遍历深度 1 watch 类全限定名方法名遍历深度为1的入参对象返回信息 2 watch 类全限定名方法名 x n 观察遍历深度为n的入参对象返回信息观察事件点 1 watch 类全限定名方法名 params x
Python爬虫从入门到精通:（39）增量式爬虫_Python涛哥

概念检测网络数据更新的情况以便于爬取到最新更新出来的数据实现核心去重实战中去重的方式记录表记录表需要记录什么记录的一定是爬取过的相关信息例如某电影网爬取过的相关信息每一部电影详情页的url 只需要使用某一组数据该组数

Python爬虫从入门到精通:（39）增量式爬虫_Python涛哥

Python爬虫从入门到精通:（39）增量式爬虫_Python涛哥 的相关文章

随机推荐

热门标签

Python爬虫从入门到精通:（39）增量式爬虫_Python涛哥的相关文章