Selenium 与 scrapy 的动态页面

2024-05-18

我正在尝试使用 scrapy 从网页中抓取产品信息。我要抓取的网页如下所示：

从包含 10 个产品的 Product_list 页面开始
单击“下一步”按钮将加载接下来的 10 个产品（两个页面之间的 URL 不会改变）
我使用 LinkExtractor 跟踪每个产品链接进入产品页面，并获取我需要的所有信息

我尝试复制 next-button-ajax-call 但无法工作，所以我尝试使用 selenium。我可以在单独的脚本中运行selenium的webdriver，但我不知道如何与scrapy集成。我应该把硒部分放在我的 scrapy 蜘蛛中哪里？

我的蜘蛛非常标准，如下所示：

class ProductSpider(CrawlSpider):
    name = "product_spider"
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/shanghai']
    rules = [
        Rule(SgmlLinkExtractor(restrict_xpaths='//div[@id="productList"]//dl[@class="t2"]//dt'), callback='parse_product'),
        ]

    def parse_product(self, response):
        self.log("parsing product %s" %response.url, level=INFO)
        hxs = HtmlXPathSelector(response)
        # actual data follows

任何想法表示赞赏。谢谢你！

这实际上取决于您需要如何抓取网站以及您想要获取什么数据以及如何获取数据。

以下是如何使用以下命令跟踪 eBay 上的分页的示例Scrapy+Selenium:

import scrapy
from selenium import webdriver

class ProductSpider(scrapy.Spider):
    name = "product_spider"
    allowed_domains = ['ebay.com']
    start_urls = ['http://www.ebay.com/sch/i.html?_odkw=books&_osacat=0&_trksid=p2045573.m570.l1313.TR0.TRC0.Xpython&_nkw=python&_sacat=0&_from=R40']

    def __init__(self):
        self.driver = webdriver.Firefox()

    def parse(self, response):
        self.driver.get(response.url)

        while True:
            next = self.driver.find_element_by_xpath('//td[@class="pagn-next"]/a')

            try:
                next.click()

                # get the data and write it to scrapy items
            except:
                break

        self.driver.close()

以下是“硒蜘蛛”的一些示例：

在python中使用scrapy执行Javascript提交表单函数 https://stackoverflow.com/questions/10648644/executing-javascript-submit-form-functions-using-scrapy-in-python
https://gist.github.com/cheekybastard/4944914 https://gist.github.com/cheekybastard/4944914
https://gist.github.com/irfani/1045108 https://gist.github.com/irfani/1045108
http://snipplr.com/view/66998/ http://snipplr.com/view/66998/

还有一种替代方法必须使用Selenium with Scrapy。在某些情况下，使用ScrapyJS中间件 https://github.com/scrapinghub/scrapy-splash足以处理页面的动态部分。实际使用示例：

使用 python-Scrapy 抓取动态内容 https://stackoverflow.com/questions/30345623/scraping-dynamic-content-using-python-scrapy

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

seleniumwebdriver

webscraping

Scrapy

Selenium 与 scrapy 的动态页面的相关文章

行未从树视图复制

该行未在树视图中复制我在按行并复制并粘贴到未粘贴的任何地方后制作了弹出复制 The code popup tk Menu tree opportunity tearoff 0 def row copy item tree opportun
如何在Python中循环并存储自变量中的值

我对 python 很陌生所以这听起来可能很愚蠢我进行了搜索但没有找到解决方案我在 python 中有一个名为 ExcRng 的函数我可以对该函数执行什么样的 for 循环以便将值存储在独立变量中我不想将它们存储在列表中而是
一次将Python dict的内容分配给多个变量？

我想做这样的事情 def f return a 1 b 2 c 3 a b f or a b f IE 这样 a 被分配为 1 b 被分配为 2 并且 c 是未定义的这与此类似 def f return 1 2 a b f 依赖于变量名称
python - 是否可以扩展 xml-rpc 可以序列化的事物集？

我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用这不能开箱即用因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
如何从 PyCharm 项目中获取我的“exe”[重复]

这个问题在这里已经有答案了通过 PyCharm 在 Python 上编写一些项目我想从中获取一个exe文件我尝试过另存为 gt XXX exe 但是当我尝试执行它时出现错误此类操作系统不支持该文件附注我有win7 x64 它
Python - 用逗号分割，跳过括号内的内容

我需要用逗号分隔字符串但我对这种情况有一个问题 TEXT EXAMPLE THIS IS A EXAMPLE BUT NOT WORKS FOR ME SECOND THIRD 我想拆分并得到 var 0 TEXT EXAMPLE THI
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
如何从 Dockerfile 安装 Python 3.7 和 Pip

我正在尝试构建基于 Ubuntu 18 04 的自定义 Docker 映像 Ubuntu 预装了 Python 3 6 但我想 1 安装 Python 3 7 2 将其设置为默认 Python 版本这样就可以使用python代替pytho
Python Kivy - 在本机网络浏览器中打开 url 的应用程序

我尝试制作一个简单的应用程序在单击 Screen One 上的按钮后在 Kivy 中打开一个网页我使用了这个主题 Python 在应用程序中直接显示网络浏览器 iframe https stackoverflow com questi
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
无法截取宽度为 0 的屏幕截图

我正在尝试截取 Bootstrap 模态内元素的屏幕截图经过一番努力我终于想出了这段代码 driver get https enlinea sunedu gob pe driver find element by xpath div c
conda-env list / conda info --envs 如何查找环境？

我一直在尝试 anaconda miniconda 因为我的用户使用随 miniconda 安装的结构生物学程序并且作者都没有 A 考虑到可能存在其他 miniconda 应用程序 B 他们的程序将在多用户环境中使用因此使用 Arch
Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

我在 pandas 数据框中有时间序列数据索引为测量开始时的时间列中包含以固定采样率记录的值列表连续索引列表中元素数量的差异这是它的样子 Time A B Z 0 1 2 3 4 1 2 3 4 2 5 6 7 8 5 6 7 8
Python - 如何查询定义方法的类？

我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
使用 Python 生成类似于 Messenger 或 kik 代码的圆形二维码

我可以使用 Python 生成圆形 QR 码就像 Facebook Messenger 或 kik 使用的那样吗我访问了很多网站但找不到这种类型的二维码默认情况下 Python 生成方形 QR 码但在我的项目中我想要圆形 QR 码

随机推荐

尝试获取 Google accessToken

看起来无论我做什么谷歌都在竭尽全力阻止我完成这个研究项目我的项目让我使用 Google 电子表格作为数据库并使用所述电子表格中的数据执行程序化的 Google 图片搜索并向最终用户显示一些结果设置说明我开始按照此处的说明进行操
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
如何使用 jQuery 进行同步请求？

为什么不返回该函数的responseText function LoadBookmarksAsXml return ajax type GET async false url http www google com bookmarks ou
Android Things 5.1 - 9 位 UART

我正在尝试使用 Android Things 支持 9 位 UART 当我尝试将数据大小设置为 9 时我收到 IO 异常唯一有效的配置是 7 位和 8 位我知道可以使用奇偶校验错误中断进行 9 位模拟但在 Android 上我没有
从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
如何清除 Slatejs v0.50+ 中的编辑器？

我不知道如何删除 Slate v0 50 中编辑器中的所有内容我曾经能够做这样的事情 editor moveToRangeOfDocument delete 我现在该怎么做你需要先开始Location编辑器然后结束Location 最
.NET CORE WEB API 接受整数列表作为 HTTP GET API 中的输入参数

我正在使用 net core 3 Web api 下面是我的操作的样子它使用 HTTP GET 我想传递几个字段其中一个字段是整数列表 HttpGet Route cities public ActionResult
尝试用 C# 创建数学输入面板

如何在 C 中创建数学输入面板我尝试将其放入 dll 中并调用它但它立即关闭 include
我可以从命令行打印 html 文件（带有图像、css）吗？

我想从脚本中打印带有图像的样式化 html 页面谁能建议一个开源解决方案我使用的是 Linux Ubuntu 8 04 但也对其他操作系统的解决方案感兴趣你可以给html2ps http user it uu se jan html2
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
在 macOS 上为 MoviePy 安装 ffmpeg 失败并出现 SSL 错误

我正在尝试编写一个 Python 程序在 Mac OS 10 11 16 上使用 MoviePy 将 MP4 文件转换为 GIF 我用 import moviepy editor as mp 我收到一条错误消息说我需要打电话imagei
如何将 MySQL 查询输出保存到 Excel 或 .txt 文件？ [复制]

这个问题在这里已经有答案了如何将 MySQL 查询的输出保存到 MS Excel 工作表即使只能将数据存储在 txt文件就可以了 From 将 MySQL 查询结果保存到文本或 CSV 文件中 http www tech recipe
如何通过减少请求来改进 AJAX 实时搜索

我正在构建一个 AJAX 实时搜索页面到目前为止一切都按预期运行但我注意到我正在进行大量的 AJAX 调用我知道发生这种情况的地点和原因但我找不到阻止这些 AJAX 调用发生的方法我将尝试给出快速解释然后粘贴下面的代码在页面
Java Web 技术中的 AJAX 自动完成文本框（JSP 和 servlet）

我需要您的帮助了解如何使用 Java Web 技术 JSP Servlet 和 AJAX 使 HTML 输入文本元素像 Google 的 AJAX 搜索引擎输入文本元素一样工作下拉列表中的数据将来自数据库表例如分别是 MySQL 或
限制对记录的访问。基于声明的权限是个好主意吗

在 net 基于声明的身份框架中如果我想限制用户对某个帐户特定帐户 123456 执行操作查看或编辑我说的是商业实体例如银行帐户创建索赔是个好主意吗对于他们可以查看或编辑的每个帐户一组中有很多索赔有什么缺点吗系统管理员可能有
Python 非贪婪正则表达式

我如何制作一个像这样的Python正则表达式这样给定 a b c d e 蟒蛇匹配 b 代替 b c d 我知道我可以使用代替但我正在寻找一种更通用的解决方案使我的正则表达式更加干净有没有办法告诉python 嘿尽快匹配这个
使用组合 API 和 TypeScript 类型系统强类型化 vue 组件的 props

我正在使用 vue 组合 api 和 typescript 如何使用打字稿输入系统强类型化组件属性特洛伊凯西尔的回答并不完全准确我引用的文档definecomponent https vue composition api rfc n
IE 7 兼容模式中的 JQuery Unobtrusive 验证导致带有表单的页面出现“Member Not Found”错误

最近我在 Internet Explorer 中查看我的网站时注意到 JQuery 错误该错误是源自 JQuery 源的未找到成员错误我注意到单击了兼容模式按钮取消单击此按钮修复了错误但我不能假设我的网站的用户会如此乐于助人
如何从嵌套的对象数组中获取每个父级的值

所以我有多个对象数组每个对象都包含一个子对象 e g const data id 1 name parent 1 children id c1 name child 1 children id g1 name grand 1 childr
Selenium 与 scrapy 的动态页面

我正在尝试使用 scrapy 从网页中抓取产品信息我要抓取的网页如下所示从包含 10 个产品的 Product list 页面开始单击下一步按钮将加载接下来的 10 个产品两个页面之间的 URL 不会改变我使用 LinkExt

Selenium 与 scrapy 的动态页面

Selenium 与 scrapy 的动态页面 的相关文章

随机推荐

热门标签

Selenium 与 scrapy 的动态页面的相关文章