Python selenium 使用 xpath 和 for 循环提取元素

2023-12-01

我正在使用 Python/Selenium 从网站中提取一些文本，以便在 Google 表格中进一步对其进行排序。

我需要提取 15 个标题的文本。该文本位于标签 h5 中的每个标题下。

这是标题的一段摘录：

<tr class="dayHeader">
 <td colspan="7" style="padding:10px 0;">
  <hr>
  <h5>&nbsp;&nbsp;Tuesday - 02 February 2021</h5>
 </td>
</tr>

我所做的如下：

headers = driver.find_elements_by_tag_name('h5')
results = []

for header in headers:
    result = header.text
    results.append(result)

我更喜欢通过此标签上方的类从 h5 获取文本，如下所示：

headers = driver.find_element(By.XPATH,"//tr[@class='dayHeader']/h5")

并将其添加到提到的 for 循环中，但我似乎无法让这条线工作。我怎样才能做到这一点？

你就快到了。/ in xpath表示第一个孩子。但是<h5>不是第一个孩子//tr[@class='dayHeader'].

Solution

您需要替换单个正斜杠，即/带有双正斜杠，即//这将表明一个后代。所以你的有效代码行将是：

print([my_elem.text for my_elem in driver.find_elements(By.XPATH, "//tr[@class='dayHeader']//h5")])

理想情况下你需要诱导WebDriver等待 for visibility_of_all_elements_located()你可以使用以下内容定位策略:

print([my_elem.text for my_elem in WebDriverWait(driver, 20).until(EC.visibility_of_all_elements_located((By.XPATH, "//tr[@class='dayHeader']//h5")))])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

forloop

seleniumwebdriver

webscraping

xpath

Python selenium 使用 xpath 和 for 循环提取元素的相关文章

Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
如何使用 Java 和 Selenium WebDriver 在 C 目录中创建文件夹并需要将屏幕截图保存在该目录中？

目前正在与硒网络驱动程序和代码Java 我有一种情况我需要在 C 目录中创建一个文件夹并在该文件夹中创建我通过 selenium Web 驱动程序代码拍摄的屏幕截图它需要存储在带有时间戳的文件夹中如果我每天按计划运行脚本所有屏幕截
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
java.lang.IllegalStateException：驱动程序可执行文件的路径必须由 webdriver.chrome.driver 系统属性设置 - Similiar 不回答

尝试学习 Selenium 我打开了类似的问题但似乎没有任何帮助我的代码 package seleniumPractice import org openqa selenium WebDriver import org openqa s
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我

随机推荐

客户端-服务器 Java GUI：读/写导致程序冻结

我正在用 Java 编写客户端服务器程序包括 GUI 我在客户端有以下代码 public class SBListener implements ActionListener public void actionPerformed Ac
leetcode 的 Java 4sum 实现

leetcode 的问题陈述是这样的给定一个由 n 个整数组成的数组 S S 中是否存在元素 a b c 和 d 使得 a b c d target 找到数组中所有唯一的四元组给出目标的总和 Note Elements in a qua
如何继承带有模板的类？ [复制]

这个问题在这里已经有答案了为什么下面的方法可以正常工作 class a public int n class b public a public b n 1 int main 但这不起作用 template
实现查找表

我正在开发一个自定义数据结构目前正在进行 beta 测试过程数据将存储在一个数组中并且该数组可以表示为 4D 2D 和 1D 数组这三个数组在联合中声明因为它代表相同的内存寻址这是给我的班级的声明一些类 h ifndef So
Java 2012-006 更新破坏了 xCode 上传

这与这个问题相关无法提交申请然而在 Apple 最近的 Java 更新删除了 Web 插件之后 Oracle 立即发布了 Java 7 的更新现在 xcode 无法再上传上传到 iTunes Store 时发生错误并且旧的修复
使用 Python 请求的异步请求

我尝试了文档中提供的示例请求库对于蟒蛇 With async map rs 我得到了响应代码但我想获取所请求的每个页面的内容例如这不起作用 out async map rs print out 0 content Note 下面的答案
Java Keylistener 没有打开窗口？

我正在尝试用 Java 创建一个自动点击器这是我所知道的语言而且我刚刚学习了线程我想让小程序在它自己的窗口中打开而不是在网页上并且我希望能够使用空格键启动和停止程序而不选择窗口以便我可以在另一个程序上使用自动点击器并能够停止它而
React-Redux - 创建搜索过滤器[关闭]

Closed 这个问题需要细节或清晰度目前不接受答案我需要帮助在我的应用程序中制作搜索过滤器它是一个简单的应用程序用于学习目的目标是创建一个搜索过滤器我有state在 search bar 容器中我认为我需要将其作为道具传递给
对于 TFS 构建，$(TeamBuildConstants) 为空

我有一个像这样的构建后事件如果不是 TeamBuildConstants TEAM BUILD SolutionDir Tools NuGet exe 包 ProjectDir MyAssembly nuspec BasePath Pro
迭代时从列表中删除[重复]

这个问题在这里已经有答案了我有一个清单 a 1 2 3 4 5 6 7 8 9 b 10 11 12 13 14 15 16 17 18 遍历列表时b 如果任何数字小于15 则从列表中删除其对应的数字索引 a 例如在列表中b 10 1
Instagram，如何按标签获取所有照片？

这样我就可以得到有多少帖子有 SOMETAG https api instagram com v1 tags SOMETAG 我可以通过标签获取图像 https api instagram com v1 tags SOMETAG media
如何在关闭阶段 JavaFX 后停止 WebEngine？

当我使用 WebEngine 创建新舞台来播放 YouTube 视频时在我关闭它之后 Youtube 继续在后台播放如果我使用 Platform exit 它会关闭我所有的JavaFX应用程序但我只想关闭为YouTube创建的阶段这
将 SQL 与 Java 代码分离

这是我在连接数据库时经常遇到的问题如何将SQL从普通的java代码中分离出来我通常为数据库连接使用单独的类但是当您有多个数据库并且每个数据库中有多个表时总是很难 100 做到这一点举个例子如果我们想将所有的 java SQL
如何使用Delphi正确执行.bat文件

我正在运行 delphi 2010 中的 bat 文件 procedure TForm1 Button2Click Sender TObject var sCmd String Begin sCmd Pwidechar b4a c2dm b
如何从产生数据块的慢速处理侧线程流式传输超级请求的正文？

我有一个程序可以缓慢地生成数据我们可以说它是计算密集型的就像计算 pi 的数字一样它产生一个lot数据的每个响应可以是 1GiB 无法容纳在内存中并且must按需生成我正在使用 hyper 编写一个 Web 服务来根据请求生成内
用 Less 编写特定于浏览器的 hack（对于

我想做这样的事情来源 CSS 技巧文章 veinte color blue 9 在 IE7 和 IE8 的 Less 中但它给出了错误以下作品 diecinueve color blue 9 但有一些元素我不想在 IE9 中被调用例

在powershell中添加5分钟进度条

我想在我的 Powershell 脚本中添加 5 分钟进度条我找不到同时运行进度条和脚本其他部分的解决方案有人可以帮忙吗我需要实现任何线程吗谢谢这是进度条 seconds 60 minutes seconds 5 1 minute
Razor 代理类型错误。系统.数据.实体.动态代理

我有一个 User 类然后是另一个具有一些特殊用户属性的 UserSpecial 类我将它在 razor 中传递给部分方法类以创建 UserSpecial 表单该表单需要 User Special 类型的对象但出现错误 model
使用带有 Rsocket 和 Spring Webflux 的 websocket 仅向特定客户端发送消息

我正在尝试在我的一个 POC 项目中将 Rsocket 与 websocket 一起使用就我而言不需要用户登录当我收到来自其他服务的消息时我只想向某些客户端发送消息基本上我的流程是这样的 Service A Service B
Python selenium 使用 xpath 和 for 循环提取元素

我正在使用 Python Selenium 从网站中提取一些文本以便在 Google 表格中进一步对其进行排序我需要提取 15 个标题的文本该文本位于标签 h5 中的每个标题下这是标题的一段摘录 tr class dayHeader

Python selenium 使用 xpath 和 for 循环提取元素

Solution

Python selenium 使用 xpath 和 for 循环提取元素 的相关文章

随机推荐

热门标签

Python selenium 使用 xpath 和 for 循环提取元素的相关文章