Selenium，通过 Xpath 获取元素 - 仅抓取页面上的最后 60 个元素

2023-12-22

我在弄清楚如何指定页面上的最后 60 个元素时遇到了一些困难

posts = driver.find_elements_by_xpath("""(//div[@class='hotProductDetails'])""")
for post in posts:
    print(post.text)

此代码打印网页上这些元素中的每一位文本。但我正在尝试抓取一个带有“加载更多”按钮的网站。

“加载更多”按钮加载 60 多个产品，我希望我的代码只获取这些产品。这样我就可以将所有内容放在一个循环中，单击按钮，获取它加载的产品，附加到 Pandas Dataframe 并重复一定数量的迭代。

我一直无法获得为我执行此操作的代码，一旦多次按下“加载更多”按钮，抓取元素就会杀死 chrome，进而杀死我的脚本。

"(//div[@class='hotProductDetails'])[position() > {} and position() <= {}])".format ((page -1 ) * 50, page * 50)

有人与我分享了这段代码，但它因以下错误而使我崩溃：

invalid selector: Unable to locate an element with the xpath expression (//div[@class='hotProductDetails'])[position() > {} and position() <= {}])".format ((page -1 ) * 50, page * 50 because of the following error:
SyntaxError: Failed to execute 'evaluate' on 'Document': The string '(//div[@class='hotProductDetails'])[position() > {} and position() <= {}])".format ((page -1 ) * 50, page * 50' is not a valid XPath expression.
  (Session info: chrome=60.0.3112.90)
  (Driver info: chromedriver=2.31.488763 (092de99f48a300323ecf8c2a4e2e7cab51de5ba8),platform=Windows NT 10.0.14393 x86_64)

这是我第一次进行网络抓取项目并使用 Selenium（这是一个令人惊叹的软件包，给它留下了深刻的印象），我不知道如何修复它。我怀疑这与“页面”代码有关，因为所有内容都位于同一个网页上，当您加载更多产品时，该网页会变得更大。

如果有帮助的话，我可以分享我正在抓取的网站 - 就像我说的，这是我的第一个抓取项目，也是我刚刚加入的一家公司的项目。我不知道我分享这件事他们是否会感到不安。

如果您得到无效的 XPATH 选择器，则说明有问题。末尾多了一个“）”。下面对我有用

page = 2

xpath_selector = "(//div[@class='hotProductDetails'])[position() > {} and position() <= {}]".format ((page -1 ) * 50, page * 50)

另外，如果您想要最后 60 个元素之类的内容，那么您甚至可以使用下面的

xpath_selector = "(//div[@class='hotProductDetails'])[position() > last() - 60]"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

xpath

webscraping

Selenium，通过 Xpath 获取元素 - 仅抓取页面上的最后 60 个元素的相关文章

从 torch.autograd.gradcheck 导入 zero_gradients

我想复制代码here https github com LTS4 DeepFool blob master Python deepfool py 并且我在 Google Colab 中运行时收到以下错误 ImportError 无法导入名称
从内存地址创建python对象（使用gi.repository）

有时我需要调用仅存在于 C 中的 gtk gobject 函数但返回一个具有 python 包装器的对象之前我使用过基于 ctypes 的解决方案效果很好现在我从 PyGtk import gtk 切换到 GObject intro
DynamodB：如何更新排序键？

该表有两个键 filename 分区键和eventTime 排序键我要更新eventTime对于某些filename Tried put item and update item 发送相同的filename与新的eventTime但这些
Python：json_normalize pandas 系列给出 TypeError

我在 pandas 系列中有数万行像这样的 json 片段df json IDs lotId 1 Id 123456 date 2009 04 17 bidsCount 2 IDs lotId 2 Id 123456 date 2009 0
使用 Python 和 lmfit 拟合复杂模型？

我想适合椭偏仪 http en wikipedia org wiki Ellipsometry使用 LMFit 将数据转换为复杂模型两个测量参数 psi and delta 是复杂函数中的变量rho 我可以尝试将问题分离为实部和虚部共享参
Python Selenium 打印另存为 PDF 等待文件名输入

我正在尝试通过打印对话框将网站另存为 PDF 我的代码允许我另存为pdf 但要求我输入文件名我不知道如何将文件名传递到弹出框附上我的代码 import time from selenium import webdriver import
如何用函数记录一个文件？

我有一个带有函数 lib py 但没有类的python 文件每个函数都有以下样式 def fnc1 a b c This fonction does something param a lalala type a str param b
在 django 中导入设置时出现奇怪的错误

我有很多项目在 ubuntu 中使用 python2 7 和 virtualenv virtualenvwrapper 工作在我的工作中一些开发人员使用 macosx 和 windows 通常我像往常一样创建项目 django admi
如何通过selenium中弹出的身份验证？

我正在尝试使用带有 Selenium 的 Python 脚本加载需要身份验证的网页 options webdriver ChromeOptions prefs download default directory r download de
获取多个同名请求参数

我的问题是给定的代码 from flask import Flask request app Flask name app route def hello return str request values get param None a
Python脚本从字母和两个字母组合生成单词

我正在编写一个简短的脚本它允许我使用我设置的参数生成所有可能的字母组合例如 b a 参数单词 5 个字母第三第五个字母 b a 第一个字母 ph sd nn mm 或 gh 第二第四个字母任意元音 aeiouy 和 rc 换句
AttributeError: 'super' 对象没有属性 '__getattr__' 在 Kivy 中使用带有多个 kv 文件的 BoxLayout 时出错

我很清楚这个问题已经被问过好几次了但尝试以下解决方案后 Python Kivy AttributeError 尝试获取 self ids 时 super 对象没有属性 getattr https stackoverflow com qu
将 Django 中的所有视图限制为经过身份验证的用户

我是 Django 新手我正在开发一个项目该项目有一个登录页面作为其索引和一个注册页面其余页面都必须仅限于登录用户如果未经身份验证的用户尝试访问这些页面则必须将他她重定向到登录页面我看到 login required装饰器会将
如何在引发异常时将变量传递给异常并在异常时检索它？

现在我只有一个空白的异常类我想知道如何在引发变量时给它一个变量然后在 try except 中处理它时检索该变量 class ExampleException Exception pass 为其构造函数提供一个参数将其存储为属性然后
AWS 将 MQTT 消息存储到 DynamoDB

我构建了一个定期发送 MQTT 消息的 python 脚本这是发送到后端的 JSON 字符串 Id 1234 Ut 1488395951 Temp 22 86 Rh 48 24 在后端我想将 MQTT 消息存储到 DynamoDB 表中
为什么从 openAI 导入 Universe 模块时出现“无效语法”错误

当我导入时universe来自 openAI 的模块我收到以下错误 Traceback most recent call last File
py2exe ImportError：没有名为的模块

我已经实现了一个名为 myUtils 的包它由文件夹 myUtils 文件组成 init py 和许多名称为 myUtils 的 py 文件该包包含在 myOtherProject py 中当我从 Eclipse 运行它们时可以找到
Chrome 驱动程序和 Chromium 二进制文件无法在 aws lambda 上运行

我陷入了一个问题我需要在 AWS lambda 上做一些抓取工作所以我按照下面提到的博客及其代码库作为起点这非常有帮助并且在运行时环境 Python 3 6 的 AWS lambda 上对我来说工作得很好 https manivan
从 Django 运行 shell 命令

我正在 Django 中开发一个网页使用 apache 服务器需要调用 shell 命令来启用禁用一些守护进程我尝试这样做 os system service httpd restart 1 gt HOME out 2 gt HOM
超过两个点的Python相对导入

是否可以使用路径中包含两个以上点的模块引用就像这个例子一样 Project structure sound init py codecs init py echo init py nix init py way1 py way2 py w

随机推荐

Heroku 计费测功机到底如何工作？

我试图了解 Heroku 定价系统好的免费帐户每小时可获得 1000 dyno dyno hour 的确切含义是什么这取决于什么每秒请求数用户数量如果我想切换到非睡眠优惠我必须为每个 dyno 支付 7 美元那么 1000
友元函数未在此范围内声明错误

您好我试图了解友元函数的范围但出现未在范围内声明错误这是我的代码 node h class Node public int id int a int b friend int add int int void itsMyLife
在 Python 3 中使用 xlsxwriter 交替行颜色

有人在Python3中使用xlsxwriter生成excel时实现了交替行颜色吗 data format workbook add format bg color FFC7CE worksheet write data row data c
vim 系统寄存器 * 和 + 不起作用

echo has clipboard 返回 1 但每当我执行 yy or yy 那些寄存器中似乎什么也没有如果我使用常规yy复制另一行文本然后尝试使用从寄存器粘贴CONTROL V什么都没发生如果我尝试 pvim 粘贴我使用常规复制的
Linux 的 Windows Beep() 等效项

我正在Windows上试验Beep功能 include
Laravel 创建方法

我正在尝试使用 Laravel 存储数组create method input Input all new media this gt media gt create input or input Input all new media M
为输入字段注册自定义焦点事件处理程序的最佳实践

遗憾的是我没有找到任何焦点事件sap m Input or sap m TextArea我可以在 XML 视图中注册处理程序您的最佳实践是什么例如如果你有近 100 个字段并且其中大部分应该处理focus 事件以便自动选择输入字段中
转换为具有指定小数位数的小数

有没有办法将一个数字转换为具有指定小数位数的小数我试过 SELECT CAST NumericField AS NUMERIC 15 DecimalPlaces AS NumericField 但这没有用 EDIT 我写错了NUMBER代
Chrome 开发者工具 - （索引）样式表在哪里？

我正在修改一个基于 WordPress 的网站的主题新主题再具体一点虽然我改变了主题选项 style css文件和custom css文件我无法更改链接的颜色然后我使用 Chrome 的开发者工具来检查我的规则在哪里被覆盖最重要的
如何在Web Core API中调试启动？

我有一个使用 Web Core API 的 MVC 网站在进行了微小的更改和部署后我意外地收到了错误响应状态代码不表示成功 500 内部服务器错误所以我启用了 Web Core API 的日志文件请参阅https learn mi
ASP.NET MVC 应用程序中的数据操作和业务逻辑代码应该放在哪里？

观看了 Rob Conery 的 Kona 应用程序的示例后我发现他在 IoC 中使用了两个东西 ISession 其中有数据层代码和服务其中有一些我们在操作数据存储中的数据时需要执行的附加业务逻辑例如我们可能不仅向数据库添加一条记
PHP 中的简单 BBparser 可让您替换标签之外的内容

我正在尝试解析表示源代码的字符串如下所示 code lang html lt div gt stuff lt div gt code div stuff div 正如你从我之前的 20 个问题中看到的我尝试使用 PHP 的正则表达式函数
向 Woocommerce 3.0 添加股票期权

我正在尝试将自定义 stock status 添加到 WordPress 中的 woocommerce 3 0 中最终目标是在产品编辑页面上添加第三个库存选项暂停并在产品页面上显示该库存状态以前我可以使用这里的方法在 woocom
由于 CPU 类型的原因，C++ Boost 多线程比单线程慢？

我之前发布过一些boost多线程这次我只是好奇和失望因为我认为多线程应该比单线程更快两个线程是 FILE I O 读取解析 CSV 数据当我使用多线程时每台来自 DELL DESKTOP OPTIPLEX 745 的 PENTI
PHP 7.2 count() 函数不起作用

我有一个正在运行的 php 应用程序它在 php 7 0 版本上运行良好但是当我将 php 版本升级到 7 2 时我收到此错误 count Parameter must be an array or an object that im
使用 Subversive 时出现 Eclipse 错误

我正在关注此处说明 http www headfirstandroid com p guide importing projects from google html获取存储库Head First Android 我已经安装了Subvers
如何在 Angular 应用程序的 Karma 测试中模拟 Firebase

通过遵循 AngularFire 指南我已将作用域变量与 Firebase 数组同步我的代码与教程基本相同第5步 https www firebase com docs web libraries angular quickstart
是否可以将 git diff 等同于 go-git

我每 10 秒拉一次存储库并且需要检查每次拉后哪些文件发生了更改可以用 go git 做到这一点吗您可以使用 object Commit 补丁 https godoc org gopkg in src d go git v4 plum
在图节点之间绘制线条有哪些好的算法？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Selenium，通过 Xpath 获取元素 - 仅抓取页面上的最后 60 个元素

我在弄清楚如何指定页面上的最后 60 个元素时遇到了一些困难 posts driver find elements by xpath div class hotProductDetails for post in posts print p

Selenium，通过 Xpath 获取元素 - 仅抓取页面上的最后 60 个元素

Selenium，通过 Xpath 获取元素 - 仅抓取页面上的最后 60 个元素 的相关文章

随机推荐

热门标签

Selenium，通过 Xpath 获取元素 - 仅抓取页面上的最后 60 个元素的相关文章