Scrapy

避免由于相对 URL 导致的错误请求

我正在尝试使用Scrapy抓取一个网站并且我想要抓取的每个页面的url都是使用这种相对路径编写的 a href en item to scrap html Link a 现在在我的浏览器中这些链接可以工作您可以访问类似的网址http

python Scrapy webcrawler

scrapy获取同一个类的第n个子文本

我附上了一张照片我面临的问题是获取同一类的第一个元素我想得到 adxHeader gt adxExtraInfo 1st one gt adxExtraInfoPart 1st one gt a text 我编写了以下代码但不起作用任

css python3x Scrapy

我可以在不使用 python 打开浏览器的情况下将 selenium 与 Scrapy 一起使用吗

我想用 scrapy 和 python 进行一些网络爬行我从互联网上发现了一些代码示例其中他们将 selenium 与 scrapy 一起使用我不太了解selenium但只知道它会自动执行一些网络任务浏览器实际上会打开并执行一些操作

python selenium Scrapy

如何添加剧作家的等待时间

我正在将 scrapy 与 playwright 集成但发现自己在单击后添加计时器时遇到困难因此当我点击后截取页面的屏幕截图时它仍然挂在登录页面上如何集成计时器以便页面等待几秒钟直到页面加载选择器 onetrust close

Scrapy Playwright playwrightpython

如何更改 scrapy view 命令使用的浏览器？

如何更改 scrapy shell 中 view response 命令使用的浏览器我的机器上默认使用 safari 但我希望它使用 chrome 因为 chrome 中的开发工具更好 As eLRuLL https stackoverf

python Scrapy

scrapy蜘蛛如何将值返回给另一个蜘蛛

我正在爬行的网站包含许多玩家当我点击任何玩家时我都可以进入他的页面网站结构是这样的

python python27 Scrapy

Scrapy CrawlSpider 规则具有多个回调

我正在尝试创建一个实现 scrapy CrawlSpider 的 ExampleSpider 我的 ExampleSpider 应该能够处理仅包含艺术家信息的页面仅包含专辑信息的页面以及其他一些包含专辑和艺术家信息的页面我能够处理前两

python Scrapy

运行Scrapy的Django自定义管理命令：如何包含Scrapy的选项？

我希望能够运行Scrapy网络爬虫框架 http scrapy org 来自 Django 内部 Scrapy本身只提供了一个命令行工具scrapy执行其命令即该工具不是故意编写为从外部程序调用的用户米哈伊尔科罗博夫 https st

python django Scrapy

即使收到 200 状态代码也重试 Scrapy 请求

我正在抓取一个网站有时会返回 200 但在 response body 中没有任何文本当我尝试使用 Selector 解析它时会引发 AttributeError 是否有一种简单的方法来检查以确保正文包含文本如果没有则重试请求直到

python webscraping Scrapy

XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut

python XSLT xpath Scrapy

如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa

python Scrapy

我的扩展中未收到 Scrapy Spider_idle 信号

我在几个蜘蛛之间有共同的行为spider idle正在接收信号我想将此行为移至扩展中我的分机已经监听spider opened and spider closed信号成功但是那spider idle未收到信号这是我的扩展为简洁起

Scrapy scrapysignal

Scrapy仅抓取网站的一部分

您好我有以下代码来扫描给定站点中的所有链接 from scrapy item import Field Item from scrapy contrib spiders import CrawlSpider Rule from scrap

python hyperlink Scrapy webcrawler

Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

python Scrapy

在flatpak项目中使用scrapy脚本

我正在构建一个 flatpak 构建的项目我有一个按钮当单击它时我希望它运行 scrapy 脚本来抓取数据窗口用户界面

python3x Scrapy gtk Flatpak

scrapy LinkExtractors 最终会得到唯一的链接吗？

所以我有一个包含很多文章和页码的页面现在如果我想提取一篇文章我会使用 Rule LinkExtractor allow article html callback parse article 对于页面我使用这个规则规则 LinkE

Scrapy

Python Scrapy：allowed_domains从数据库添加新域

我需要向 allowed domains 添加更多域因此我没有收到已过滤的异地请求我的应用程序获取从数据库获取的网址因此我无法手动添加它们我试图覆盖蜘蛛init 像这样 def init self super CrawlSpide

screenscraping webscraping Scrapy

Scrapy：AttributeError：“列表”对象没有属性“iteritems”

这是我关于堆栈溢出的第一个问题最近想用linkedin 刮刀 https github com junks linkedInScraper 所以我下载并指示 scrapycrawl linkedin com 并收到以下错误消息供您参考

python Scrapy six

如何使用XPath选择非空段落？

我想要抓取的网页具有类似的结构每个都有一个段落是一个问题一个段落是一个答案我想抓取每个问题和答案并将它们存储在两个项目中问题是在某些页面上问题和答案分别是 xxx p 1 and xxx p 2 但在其他页面上 xxx p 1

html xml xpath Scrapy

加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr

python performance webscraping Scrapy