Scrapy Spider整理抓取过程，不刮任何东西

2023-12-25

我有一只蜘蛛，它会在亚马逊上抓取信息。

蜘蛛读取一个 .txt 文件，在其中写入它必须搜索的产品，然后进入该产品的亚马逊页面，例如：

我使用 keywords=laptop 来更改要搜索的产品等。

我遇到的问题是蜘蛛无法工作，这很奇怪，因为一周前它的工作做得很好。

此外，控制台上没有出现任何错误，蜘蛛启动，“爬行”关键字，然后停止。

这是完整的蜘蛛

import scrapy
import re
import string
import random
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from genericScraper.items import GenericItem
from scrapy.exceptions import CloseSpider
from scrapy.http import Request

class GenericScraperSpider(CrawlSpider):

    name = "generic_spider"

    #Dominio permitido
    allowed_domain = ['www.amazon.com']

    search_url = 'https://www.amazon.com/s?field-keywords={}'

    custom_settings = {

        'FEED_FORMAT': 'csv',
        'FEED_URI' : 'datosGenericos.csv'

    }

    rules = {

        #Gets all the elements in page 1 of the keyword i search
        Rule(LinkExtractor(allow =(), restrict_xpaths = ('//*[contains(@class, "s-access-detail-page")]') ), 
                            callback = 'parse_item', follow = False)

}


    def start_requests(self):

        txtfile = open('productosGenericosABuscar.txt', 'r')

        keywords = txtfile.readlines()

        txtfile.close()

        for keyword in keywords:

            yield Request(self.search_url.format(keyword))



    def parse_item(self,response):

        genericAmz_item = GenericItem()


        #info de producto
        categoria = response.xpath('normalize-space(//span[contains(@class, "a-list-item")]//a/text())').extract_first()

        genericAmz_item['nombreProducto'] = response.xpath('normalize-space(//span[contains(@id, "productTitle")]/text())').extract()
        genericAmz_item['precioProducto'] = response.xpath('//span[contains(@id, "priceblock")]/text()'.strip()).extract()
        genericAmz_item['opinionesProducto'] = response.xpath('//div[contains(@id, "averageCustomerReviews_feature_div")]//i//span[contains(@class, "a-icon-alt")]/text()'.strip()).extract()
        genericAmz_item['urlProducto'] = response.request.url
        genericAmz_item['categoriaProducto'] = re.sub('Back to search results for |"','', categoria) 

        yield genericAmz_item

我制作的其他具有类似结构的蜘蛛也可以工作，知道发生了什么吗？

这是我在控制台中得到的内容

2019-01-31 22:49:26 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: genericScraper)
2019-01-31 22:49:26 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.8, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.7.0,                     Python 3.7.0 (default, Jun 28 2018, 08:04:48) [MSC v.1912 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.0.2p  14 Aug 2018), cryptography 2.3.1, Platform Windows-10-10.0.17134-SP0
2019-01-31 22:49:26 [scrapy.crawler] INFO: Overridden settings:         {'AUTOTHROTTLE_ENABLED': True, 'BOT_NAME': 'genericScraper', 'DOWNLOAD_DELAY':     3, 'FEED_FORMAT': 'csv', 'FEED_URI': 'datosGenericos.csv', 'NEWSPIDER_MODULE':     'genericScraper.spiders', 'SPIDER_MODULES': ['genericScraper.spiders'],     'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36     (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'}
2019-01-31 22:49:26 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats',
 'scrapy.extensions.throttle.AutoThrottle']
2019-01-31 22:49:26 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2019-01-31 22:49:26 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2019-01-31 22:49:26 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2019-01-31 22:49:26 [scrapy.core.engine] INFO: Spider opened
2019-01-31 22:49:26 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2019-01-31 22:49:26 [scrapy.extensions.telnet] DEBUG: Telnet console listening on xxx.x.x.x:xxxx
2019-01-31 22:49:27 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/s?field-keywords=Laptop> (referer: None)
2019-01-31 22:49:27 [scrapy.core.engine] INFO: Closing spider (finished)
2019-01-31 22:49:27 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 315,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 2525,
 'downloader/response_count': 1,
 'downloader/response_status_count/200': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2019, 2, 1, 1, 49, 27, 375619),
 'log_count/DEBUG': 2,
 'log_count/INFO': 7,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2019, 2, 1, 1, 49, 26, 478037)}
2019-01-31 22:49:27 [scrapy.core.engine] INFO: Spider closed (finished)

有趣的！这可能是由于网站没有返回任何数据。您是否尝试过调试scrapy shell。如果没有，请尝试检查一下response.body返回您想要抓取的预期数据。

def parse_item(self,response):
     from scrapy.shell import inspect_response
     inspect_response(response, self)

欲了解更多详情，请阅读详细信息刮皮外壳 http://doc.scrapy.org/en/latest/topics/shell.html

调试后，如果您仍然没有获得预期的数据，则意味着该站点中有更多内容阻碍了爬行过程。这可能是动态脚本或cookie/local-storage/session依赖性。

对于动态/JS 脚本，您可以使用selenium or splash.
硒与动态页面的scrapy https://stackoverflow.com/questions/17975471/selenium-with-scrapy-for-dynamic-page
在带有splash的scrapy中处理javascript https://blog.scrapinghub.com/2015/03/02/handling-javascript-in-scrapy-with-splash

For cookie/local-storage/session，你必须更深入地研究inspect窗口并找出获取数据所必需的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

webscraping

Scrapy

Scrapy Spider整理抓取过程，不刮任何东西的相关文章

使用 xlwings 排序（pywin32）

我需要使用 python 按给定行对 Excel 电子表格进行排序为了进行测试我使用以下数据在名为 xlwings sorting xlsx 的文件中 Numbers Letters Letters 2 7 A L 6 B K 5 C
ctypes c_char_p 的不同行为？

我对不同版本的 python 的这种行为感到困惑不明白为什么 Python 2 7 5 default Aug 25 2013 00 04 04 GCC 4 2 1 Compatible Apple LLVM 5 0 clang 500
无法在 VS Code 中导入

我是 python 新手一直在使用 VS code 现在我正在研究汤普森采样问题需要 numpy 和 matplotlib 我已经导入了这两个库但 VS code 给出了无法导入的错误我知道我必须使用 PIP 进行安装并且我已经看
Python BeautifulSoup 循环表数据

这里对 Python 非常陌生我正在尝试从此页面捕获一些数据这一页 https us diablo3 com en item helm 我正在尝试获取两个列表中捕获的项目名称和项目类型我稍后可以弄清楚如何将它们连接到一张表中任何帮助都
Cron 不会导入 pandas 模块来执行 python 脚本。 ```导入错误：没有名为 pandas 的模块```

我使用的是xubuntu 18 01 我有一个 python 程序可以抓取天气数据并将文件保存为 csv 运行命令完美运行weatherdata在我授予它许可后在终端中使用chmod x weatherdata 我希望使用 cron 每
将 pandas DataFrame 中的数字转换为特定字符串格式

我需要运行一个可以通过循环完成的任务但我想有一种更有效更漂亮的方法来做到这一点我有一个DataFrame它有一个整数列我想将其转换为 4 位字符串表示形式也就是说 3 应转换为 0003 234 应转换为 0234 我正在寻找一种
除下一行的值并在数据框中创建列

我有一个像这样的csv id value 1 100 1 150 1 200 1 250 2 300 2 350 2 400 2 450 我想根据每个唯一 ID 的值生成一列例如 id 1 的前 2 行值为 100 150 我正在尝试创建
查找两个复杂字典之间的集合差异

我有两个结构如下的字典 a dict1 a 1 2 3 4 b 1 2 5 6 b dict2 a 1 2 5 6 b 1 2 7 8 我需要找到字典中每个键之间的设置差异即 dict1 a dict2 a 应该返回 3 4 任何想法都值
FastAPI/Pydantic 接受任意 post 请求正文吗？

我想创建一个 FastAPI 端点它只接受任意的 post 请求正文并返回它如果我发送 foo bar 我想得到 foo bar 后退但我也希望能够发送 foo1 bar1 foo2 bar2 并把它拿回来我试过 from fast
如何解决 TypeError: element_to_be_clickable() 需要 1 个位置参数？

我收到错误TypeError element to be clickable takes 1 positional argument but 2 were given当我运行以下代码时 from selenium webdriver chr
“ModuleNotFoundError：我的 Docker 容器中没有名为的模块”

我正在尝试在 Docker 容器中运行 python 脚本但我不知道为什么 python 找不到任何 python 模块我认为它与 PYTHONPATH 环境变量有关所以我尝试将其添加到 Dockerfile 中如下所示 ENV P
Scrapy - 持续从数据库中获取要爬取的url

我想不断地从数据库中获取要爬行的网址到目前为止我成功地从基地获取了 url 但我希望我的蜘蛛继续从该基地读取因为该表将由另一个线程填充我有一个管道一旦爬行工作就会从表中删除 url 换句话说我想使用我的数据库作为队列我尝试
如何在Python中获取声音级别？

对于我正在进行的项目我需要获取麦克风的实时分贝级别我见过阴谋家 Print out realtime audio volume as ascii bars import sounddevice as sd import numpy as
无法使用 BeautifulSoup4 (Python 3) 抓取特定表

我想从 Ligue 1 足球网站上抓取一张表格具体来说该表包含有关卡片和裁判的信息 http www ligue1 com LFPStats stats arbitre competition D1 http www ligue1 co
初始化 dask 分布式工作线程的状态

我正在尝试做类似的事情 resource MyResource def fn x something dosemthing x resource return something client Client results client m
InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
类型错误：只能使用标量值执行操作

如果您能让我知道如何为所提供的表格绘制一些信息丰富的图表我将不胜感激here https www iasplus com en resources ifrs topics use of ifrs 例如我需要一个名为国内非上市公司非上
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
如何添加 id 列来标识 read_html() 表？

考虑以下站点 site1 http pastebin com vpnGqn5X site2 http pastebin com FbAFGbfR site3 http pastebin com LqZWxFSP 其中有许多不同的表我在用读
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决

随机推荐

如何在 SBT 中刷新更新的 Git 依赖项？

我已经配置了 SBT 0 11 0 以将 GitHub 项目作为依赖项拉入按照我的回答这个问题在这里 https stackoverflow com questions 7550376 how can sbt pull dependenc
在AWS CDK中执行代码之前如何等待堆栈完成？

我正在尝试 AWS CDK 但当我尝试执行依赖于堆栈完成的代码块时我陷入了困境这是我当前的代码 class Application extends cdk Construct constructor scope cdk Construc
如何编写一个函数来比较多组布尔（真/假）答案并对其进行排名？

我已经开始了一个项目事实证明它比我最初想象的要复杂得多我正在尝试规划一个基于布尔真假问题和答案的系统系统上的用户可以回答大量布尔真假问题中的任何问题并根据他们的答案看到一个显示最相似用户按相似度顺序排列的列表我在谷
静态容器已经有一个与之关联的内核

部署到 Azure 时出现与 Ninject 相关的错误 The static container already has a kernel associated with it 但在本地运行良好而且之前它一直在本地和 Azure 上运行
Python 中的 Webdriver 屏幕截图

使用python在windows上使用Selenium Webdriver进行屏幕截图时屏幕截图直接保存到程序的路径中有没有办法将 png文件保存到特定目录 Use driver save screenshot path to file
允许用户选择图像的相机或图库

我想做的事情看起来很简单但经过几天的搜索我不太明白我有一个应用程序允许用户选择多个最多 5 个图像我正在使用一个ImageView 当用户点击ImageView 我想让他们选择从图库中选择图像或使用相机捕捉图像我开始使
拉伸div以填充body

div style height 20px background color red div div style background color black div div style height 20px background col
Spark 客户端模式 - YARN 为驱动程序分配容器？

我在客户端模式下在 YARN 上运行 Spark 因此我希望 YARN 仅为执行器分配容器然而从我所看到的来看似乎还为驱动程序分配了一个容器并且我没有得到与预期一样多的执行程序我正在主节点上运行 Spark Submit 参数如下
JSTL 表达式语言访问对象属性

我今天正在学习一个教程这个教程让我摸不着头脑一个小时考虑 public class MyClass public int getTotal amount 100 return amount 以及 JSP 的摘录 p Total obje
万智牌数据库设计

我想为我拥有的 MTG 卡创建一个数据库设计会是什么样的我想存储每张卡的以下信息 1 Name of card 2 Set the card belongs to 3 Condition of card 4 Price it sold
位图插值c#

网格尺寸 160 160 行数列数 16 16 我为此创建了一个位图网格的每个单元格都填充有不同的颜色我需要执行颜色插值我猜您想要执行以下操作拍摄 16x16 像素图像并将其插值为 160x160 像素图像以下是三个示例输出您
实现WebView数据库配额委托

我如何实现这个方法见下文我是 Objective C 的新手我只是不太了解它 From http lists apple com archives Webkitsdk dev 2008 Apr msg00027 html http l
确定将在 php 中发送的 http 状态

我正在尝试为管理应用程序标头的类编写一个测试用例它发送的标头中有 http 状态标头我正在使用 headers list 来查看将发送哪些标头如果我现在发送标头的话 headers list 的问题是它不包含 http 状态标头尽管
为什么 lapply() 不保留我的 data.table 键？

我的列表中有一堆 data tables 我要申请unique 到我的列表中的每个 data table 但这样做会破坏我的所有 data table 键这是一个例子 A lt data table a rep c a b each 3
这两组陈述之间的确切区别是什么？

Set
如何重新索引 pandas 数据透视表

我创建了一个数据透视表该表根据其中一列和时间索引的月份进行分组这是数据透视表 AWRT AWFT AWDT Time type April All 38 190119 65 789103 27 598984 DHW 19 676627
隐式、显式和流利等待之间的区别

两者之间的确切区别是什么implicitwait explicitwait and fluentwait 您能举例说明吗我已经发布关于此的博客文章 https medium com austenjt difference betwen i
为什么 (x += x += 1) 在 C 和 Javascript 中的计算结果不同？

如果变量的值x最初为 0 表达式x x 1在 C 中将计算为 2 在 Javascript 中将计算为 1 C 的语义对我来说似乎很明显 x x 1被解释为x x 1 反过来这相当于 x 1 x x where x is 1 at thi
在 Angular 6 工作区中安装 NPM 包

我刚刚开始学习 Angular 6 和 CLI 并创建了一个项目如下所示 ng new my demo cd my demo ng g library foo prefix my 我的库中没有我想要添加的内容ngx bootstrap因为
Scrapy Spider整理抓取过程，不刮任何东西

我有一只蜘蛛它会在亚马逊上抓取信息蜘蛛读取一个 txt 文件在其中写入它必须搜索的产品然后进入该产品的亚马逊页面例如我使用 keywords laptop 来更改要搜索的产品等我遇到的问题是蜘蛛无法工作这很奇怪因为一周前它

Scrapy Spider整理抓取过程，不刮任何东西

Scrapy Spider整理抓取过程，不刮任何东西 的相关文章

随机推荐

热门标签

Scrapy Spider整理抓取过程，不刮任何东西的相关文章