使用 scrapy 抓取多个页面

2024-04-03

我正在尝试使用 scrapy 抓取多个网页。页面的链接如下：

http://www.example.com/id=some-number

在下一页中，末尾的数字减少了1.

所以我正在尝试构建一个蜘蛛，它可以导航到其他页面并抓取它们。我的代码如下：

import scrapy
import requests
from scrapy.http import Request

URL = "http://www.example.com/id=%d"
starting_number = 1000
number_of_pages = 500
class FinalSpider(scrapy.Spider):
    name = "final"
    allowed_domains = ['example.com']
    start_urls = [URL % starting_number]

    def start_request(self):
        for i in range (starting_number, number_of_pages, -1):
            yield Request(url = URL % i, callback = self.parse)

    def parse(self, response):
        **parsing data from the webpage**

这陷入了无限循环，在打印页码时我得到负数。我认为这种情况正在发生，因为我正在请求我的页面中的一个页面parse()功能。

但接下来给出的例子here https://stackoverflow.com/questions/23897669/scraping-multiple-pages-with-scrapy工作正常。我哪里错了？

请求的第一页是“http://www.example.com/id=1000 http://www.example.com/id=1000" (starting_number)

它的响应通过parse()与for i in range (0, 500):你正在请求http://www.example.com/id=999, http://www.example.com/id=998, http://www.example.com/id=997...http://www.example.com/id=500

self.page_number是一个蜘蛛属性，所以当你减少它的值时，你有self.page_number == 500在第一个之后parse().

所以当Scrapy调用时parse的回应http://www.example.com/id=999，您正在生成请求http://www.example.com/id=499, http://www.example.com/id=498, http://www.example.com/id=497...http://www.example.com/id=0

你猜第三次会发生什么：http://www.example.com/id=-1, http://www.example.com/id=-2...http://www.example.com/id=-500

对于每个响应，您将生成 500 个请求。

您可以通过测试来停止循环self.page_number >= 0

在评论中的OP问题后编辑：

不需要多个线程，Scrapy 异步工作，您可以将所有请求放入重写的队列中start_requests()方法（而不是请求 1 页，然后返回Request中的实例parse方法）。 Scrapy 将接受足够的请求来填充其管道、解析页面、选择要发送的新请求等。

See start_requests 文档 http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spider.Spider.start_requests.

像这样的事情会起作用：

class FinalSpider(scrapy.Spider):
    name = "final"
    allowed_domains = ['example.com']
    start_urls = [URL % starting_number]
    def __init__(self):
        self.page_number = starting_number

    def start_requests(self):
        # generate page IDs from 1000 down to 501
        for i in range (self.page_number, number_of_pages, -1):
            yield Request(url = URL % i, callback=self.parse)

    def parse(self, response):
        **parsing data from the webpage**

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 scrapy 抓取多个页面的相关文章

如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数

随机推荐

0x800a1391 - JavaScript 运行时错误：“WinJS”未定义

我已经从下载了代码CodePlex http codeshow codeplex com 然后我安装 live telerik 等的 sdk 安装后我运行代码并收到以下错误 0x800a1391 JavaScript runtime err
从node.js访问memcached的简单方法[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想知道是否有一个好的驱动程序或本机实现可以将 node js 直接连接到 memcached 这是我使用几个node memcach
如何通过 Google BigQuery 的 Python 客户端库设置现有表过期？

使用官方的Google BigQuery 的 Python 客户端 https googleapis dev python bigquery latest index html似乎没有办法设置桌子expires 或其他属性上existin
如何管理访问 Django REST API 的权限？

我正在构建一个公开 REST API 的 Django 应用程序用户可以通过该 API 查询我的应用程序的模型我正在按照说明进行操作here http www django rest framework org tutorial qui
UJS、AJAX、Rails 4、form_for collection_select 将值传递到方法并将值返回到表单

我对 Rails 非常陌生因此在一起处理 AJAX UJS 和 Rails 时遇到很多困惑我查看了railscast 几个SO答案尝试了freenode上的 rubyonrails IRC频道唉我还是被困住了无论如何这是我的问
MVC 和 WebForms 之间共享大师 - 处理

我们有一个大型遗留应用程序我们希望开始使用 MVC 来实现新功能为此我们添加了自定义路由例如 routes IgnoreRoute allaspx new allaspx as pmh x 我们希望在旧的 WebForms 和新的
闪烁动画WPF

我有这个动画一种闪烁动画这样当单击按钮时矩形就会闪烁我已经写了一个动画代码只是想知道是否有更好的方法来实现这个动画有什么建议么代码如下
Math.Tan() 接近 -Pi/2 在 .NET 中错误，在 Java 中正确？

我的单元测试失败了Math Tan PI 2 在 NET 中返回错误版本预期值取自 Wolfram 在线使用 Pi 2 的拼写常数自己看看here http www wolframalpha com input i tan 28 1
如何在 IntelliJ 中移动工具栏？

如何将 IntelliJ 中的工具栏从右上角移动到左上角单击主菜单查看工具栏
JQuery 设置本地存储变量

我在获取本地存储变量来存储正确的值时遇到一些问题它的要点是我想显示局部变量的内容然后如果用户单击它会从 xml 文件中提取数据并将其保存到局部变量中问题是它没有正确保存到局部变量我尝试了多种语法来让它工作但我没有想法它的测
有元数据驱动的 UI 示例代码吗？

我正在设计一个使用元数据驱动 UI 的 net windows 窗体应用程序除了寻找http msdn microsoft com en us library ms954610 aspx http msdn microsoft com e
通过 javascript 录制网站的内部音频

i made 这个网络应用程序 https sky music herokuapp com songComposer html为了创作音乐我想添加一个功能来将作品下载为 mp3 wav whateverFileFormatPossible
java.lang.OutOfMemory错误：

我正在尝试根据从数据库检索的字节创建视频文件该程序在几个小时前就运行良好上传大文件后当我尝试检索它时它会产生错误java lang OutOfMemoryError 我的代码是 conn prepareConnection Stri
SVG、文本、固定宽度/高度的字体

我试图让 SVG 文本元素适合 svg 矩形元素例如在下面的示例中我使用了 5 个字符的等宽文本字体大小为 100px 并且我希望有一个靠近文本的边框但文本右侧有一个空白
Spring AMQP - 使用带 TTL 的死信机制进行消息重新排队

就像是休斯顿我们这里有问题在第一次尝试处理事件失败后我需要安排延迟消息 5 分钟我在这种情况下实现了死信交换失败时的消息将路由至 DLX gt 重试队列并在 TTL 为 5 分钟后返回工作队列以进行另一次尝试这是我正在使用
安装程序启动时间长 - 在 wpWelcome 之前添加对话框？

我使用 Inno Setup 创建的安装程序大小约为 850 MB 包含约 7000 个文件和 890 个文件夹未压缩大小为 1 98 GB 当开始安装过程时之后Windows UAC 对话框出现后安装程序的图标为空Taskbar约
如何在Python OpenCV中删除轮廓内部的轮廓？

Python中的OpenCV提供了以下代码 regions hierarchy cv2 findContours binary image cv2 RETR LIST cv2 CHAIN APPROX SIMPLE for region i
Android：无法找到或加载主类org.gradle.wrapper.GradleWrapperMain

我正在尝试在 GitLab CI 上构建我的项目但不幸的是我在运行器中不断收到此错误 Error Could not find or load main class org gradle wrapper GradleWrapperMai
如何删除/卸载嵌套的反应组件

我想卸载单个反应组件该组件属于总共包含三个组件的父组件父组件有这个渲染函数 render function return div div
使用 scrapy 抓取多个页面

我正在尝试使用 scrapy 抓取多个网页页面的链接如下 http www example com id some number 在下一页中末尾的数字减少了1 所以我正在尝试构建一个蜘蛛它可以导航到其他页面并抓取它们我的代码如下 i

使用 scrapy 抓取多个页面

使用 scrapy 抓取多个页面 的相关文章

随机推荐

热门标签

使用 scrapy 抓取多个页面的相关文章