Selenium/BeautifulSoup - WebScrape 该字段

2024-05-25

我的代码运行良好，并打印除带有下拉列表的行之外的所有行的标题。

例如，如果单击第 4 行，则会出现一个下拉菜单。我实现了一个“尝试”，理论上会单击下拉菜单，然后拉出标题。

但是，当我执行 click() 并尝试打印时，对于具有这些下拉列表的行，它们不会打印。

预期输出 - 打印所有标题，包括下拉列表中的标题。

用户已在此链接上提交了答案StackOverFlow 答案 https://stackoverflow.com/questions/68473642/selenium-webscrape-this-field#68474005但他的答案的格式不同，我不知道如何用他的方法添加日期、时间、椅子等字段或顶部的“按需”字段

任何方法都将受到赞赏，希望将其放入数据框中。谢谢

from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.action_chains import ActionChains
import time
driver = webdriver.Chrome()
actions = ActionChains(driver)

driver.get('https://cslide.ctimeetingtech.com/esmo2021/attendee/confcal/session/list')
time.sleep(4)
page_source = driver.page_source
soup = BeautifulSoup(page_source,'html.parser')

new_titles = set()

productlist=driver.find_elements_by_xpath("//div[@class='card item-container session']")
for property in productlist:
    actions.move_to_element_with_offset(property,0,0).perform()
    time.sleep(4.5)
    sessiontitle=property.find_element_by_xpath(".//h4[@class='session-title card-title']").text
    #print(sessiontitle)
    ifDropdown=property.find_elements_by_xpath(".//*[@class='item-expand-action expand']")
    if(ifDropdown):
        ifDropdown[0].click()
        time.sleep(4)
        open_titles = driver.find_elements_by_class_name('card-title')
        for open_title in open_titles:
            title = open_title.text
            if(title not in new_titles):
                print(title)
                new_titles.add(title)

你的问题是driver.find_elements_by_class_name('item-expand-action expand')命令。这find_elements_by_class_name('item-expand-action expand')定位器错误。这些网络元素有多个类名。要定位这些元素，您可以使用 css_selector 或 XPath。
此外，由于有多个带有下拉菜单的元素，要对它们执行单击，您应该迭代它们。你不能执行.click()在网络元素列表上。
所以你的代码应该是这样的：

ifDropdown=driver.find_elements_by_css_selector('.item-expand-action.expand')
for drop_down in ifDropdown:
    drop_down.click()
    time.sleep(0.5)

除了上面的 css_selector 之外，您还可以使用 XPath：

ifDropdown=driver.find_elements_by_xpath('//a[@class="item-expand-action expand"]')

UPD
如果您想打印添加的新标题，您可以执行以下操作：

ifDropdown=driver.find_elements_by_css_selector('.item-expand-action.expand')
for drop_down in ifDropdown:
    drop_down.click()
    time.sleep(0.5)
newTitles=driver.find_elements_by_class_name('card-title')
for new_title in newTitles:
    print(new_title.text)

在展开所有下拉元素之后，我将获得所有新标题，然后迭代该列表打印每个元素文本。
driver.find_elements_by_class_name返回网络元素的列表。您不能申请.text在列表上，您必须迭代列表元素，每次都获取每个元素文本。
UPD2
打开下拉菜单并打印其内部标题的整个代码可以是这样的：
我用 Selenium 来做这个，而不是与 bs4 混合。

from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.common.action_chains import ActionChains

import time
driver = webdriver.Chrome()
actions = ActionChains(driver)

driver.get('https://cslide.ctimeetingtech.com/esmo2021/attendee/confcal/session/list')
time.sleep(4)
page_source = driver.page_source
soup = BeautifulSoup(page_source,'html.parser')

new_titles = set()

productlist=driver.find_elements_by_xpath("//div[@class='card item-container session']")
for property in productlist:
    actions.move_to_element(property).perform()
    time.sleep(0.5)
    sessiontitle=property.find_element_by_xpath(".//h4[@class='session-title card-title']").text
    print(sessiontitle)
    ifDropdown=property.find_elements_by_xpath(".//*[@class='item-expand-action expand']")
    if(ifDropdown):
        ifDropdown[0].click()
        time.sleep(4)
        open_titles = driver.find_elements_by_class_name('card-title')
        for open_title in open_titles:
            title = open_title.text
            if(title not in new_titles):
                print(title)
                new_titles.add(title)

我在这里检查是否有下拉菜单。如果是的话，我打开它。然后获取当前所有已打开的标题。对于每个这样的标题，我都会验证它是否是新的或之前打开过。如果标题是新的，不存在于集合中，我将打印它并将其添加到集合中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Selenium/BeautifulSoup - WebScrape 该字段的相关文章

如何使用 Java 在 Selenium WebDriver 中选择并获取下拉值

HTML 代码是
selenium-server：意外状态 SERVICE_PAUSED

尝试在 Windows 10 中将 Selenium Server 安装为服务使用 nssm 失败并显示Unexpected status SERVICE PAUSED on nssm start selenium server Sel
Python/Selenium - “没有这样的元素：无法找到元素”

我很难找到元素这个网站 https www weforum org reports global gender gap report 2021 in full economy profiles economy profiles 我的最终目标
有什么方法可以加快 Selenium 服务器的加载时间吗？

按照设计每次运行新测试时 Selenium 都会为您的 Firefox 配置文件创建一个新副本我发现这个复制时间是一个相当大的瓶颈特别是在运行数百个测试时重新复制配置文件需要 5 15 秒有谁知道这有什么覆盖行为吗我希望我的 S
带有 jsessionid 的 R 网络抓取工具

我正在 R 中测试一些网页抓取脚本我已经阅读了很多教程文档并尝试了不同的方法但到目前为止还没有成功我试图抓取的网址是this one http www dataescolabrasil inep gov br dataEscolaB
AttributeError：“列表”对象没有属性“文本”，在 DOM 中查找元素时出错

我尝试在树 DOM 中查找元素但遇到问题我写 age browser find elements by xpath div id ads ul li 6 span 2 text 但它一直显示我的错误属性错误列表对象没有属性文本
PdoStatement->bindParam() 上的字符串编码问题？

我正在尝试执行一个简单的SELECT来自取自 a 的字符串的语句 REQUESTvar 但我的 PDO 语句似乎不喜欢字符串格式为什么 My REQUESTvar 包含一个字符串例如Hello World 所以我需要替换用空格来做我的
在 pom 中添加 selenium 依赖项后，AWS Lambda Jar 无法压缩

这是一个奇怪的错误将 selenium 依赖项添加到我的 maven 项目的 pom 并将其上传到 lambda 后它说无法解压缩文件然而在删除依赖项之后 lambda 能够很好地解压缩文件但是它会出现一个随后找不到的类我尝试一
Python3.5 BeautifulSoup4从div中的'p'获取文本

我试图从 div 类 caselawcontent searchable content 中提取所有文本此代码仅打印 HTML 不打印网页中的文本我缺少什么来获取文本以下链接位于 finteredcasesdoc text 文件中 h
使用 Selenium 放置嵌入的谷歌地图标记

我有一个 asp net 网站作为向导的一部分它使用嵌入式谷歌地图通过单击地图放置标记来选择位置我如何使用 Selenium 实现自动化我特别尝试过 ClickAt 双击鼠标按下鼠标按下在所有情况下传递地图 div id 作
为什么我必须点击两次才能使用 selenium 提交输入

ENV 铬 32 webdriver2 8 我正在使用 selenium java 单击提交输入但我需要单击两次才能激活提交操作输入代码
从网站上的表格中抓取数据，而无需搜索标签

这是这个问题的延续使用 InStr 搜索引号空格冒号等 https stackoverflow com questions 52673819 using instr to search for quotes spaces colons
无法使用 beautifulsoup 模块 python 从 HTML 检索温度值

我正在使用 BeautifulSoup4 来解析此 HTML 查看源代码 https weather com en IN weather today l 17 39 78 49 https weather com en IN weather
无头无尽滚动硒

from selenium import webdriver from selenium webdriver common by import By from selenium common exceptions import StaleE
RemoteWebDriver 和 WebDriver 有什么区别？

实际上我找不到一个很好的解释来解释 RemoteWebDriver 和 Selenium 中的 WebDriver 之间的区别下面是 eclipse 告诉我将 WebDriver 转换为 RemoteWebDriver 的代码 Remo
以编程方式设置 maxRequestLength

有一个配置值叫做maxRequestLength 在配置文件中它看起来像这样
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
java.lang.IllegalStateException：驱动程序可执行文件的路径必须由 webdriver.chrome.driver 系统属性设置 - Similiar 不回答

尝试学习 Selenium 我打开了类似的问题但似乎没有任何帮助我的代码 package seleniumPractice import org openqa selenium WebDriver import org openqa s
如何为基于 Polymer (JS) 的应用程序编写端到端测试（大约 2015 年 5 月）？

我已经构建了一个基于聚合物的应用程序我想为其编写一些端到端测试不是单元测试而是用户行为集成测试目前 2015 年 5 月我该如何执行此操作这几天我一直在研究这个问题尽管网络上有大量专门讨论一个或另一个相关主题的页面但没有任何
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class

随机推荐

在嵌套类中使用 super()

想象一下 class A object class B object def init self super B self init 这会产生一个错误 NameError global name B is not defined 我试过了A
如何将监听休眠事件的模块与实体本身解耦？

我有一个由 spring jpa hibernate 驱动的分层 Web 应用程序现在我正在尝试集成 elasticsearch 搜索引擎我想要做的是捕获所有 postInsert postUpdate 事件并将这些实体发送到 elas
Google Map API v3 无法在 IE9 中加载

我尽可能多地研究了这个主题但没有找到解决方案在除 Internet Explorer 版本 8 或 9 之外的所有浏览器中下面的脚本适用于加载 Google 地图在IE8 and IE9但是 Google 地图 API v3 似乎无
更改 Laravel auth 表名称和列名称

我想更改 laravel auth 表的表名和一些列名将表名称从用户更改为帐户将表列名称从名称更改为用户名将表列名称从 email 更改为 email addr 将表列名称从 updated at 更改为 last upd
如何使用 echo 写入非 ASCII 字符？

如何写非ASCII http en wikipedia org wiki ASCII使用 echo 的字符是否有转义序列例如 012或类似的东西我想使用以下方法将 ASCII 字符附加到文件中 echo gt gt file 如果您关
使用 Angularjs，$http 在 Microsoft Edge 中发布返回响应错误

好吧当我开发一个管理页面进行测试时 Microsoft Edge 中出现了一个奇怪的问题这是从loginCtrl js服务器获取响应的部分源代码 http method POST url Define apiUrl admin logi
使用 Node-sass 缩小 CSS

我在 NodeJS 项目中使用 SCSS 并让我的脚本使用以下命令将所有单独的 SCSS 文件转换为单个 CSS 文件 node sass w public css scss style scss public css style css
使用最新的 Javascript 代码片段时如何调用 addTelemetryInitializer？

我正在尝试自定义综合浏览事件的名称属性以前曾问过这个问题例如如何为 Azure App Insights 中的页面视图事件提供自定义名称 https stackoverflow com questions 53778932 how to
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
如何创建粗体 UIFont

我正在我的表格视图中进行一些自动换行因为某些值太大以至于超出了屏幕边缘但是字体大小和粗体与表视图的默认设置不匹配希望有人能帮助我解决这个问题这就是我正在做的设置字段的操作 CGFloat tableView UITableVi
如何实现类似于@Override java注解的东西？

有了这个jdk代码 java lang Override java package java lang import java lang annotation Target ElementType METHOD Retention Rete
c# .NET MVC 4 - 如何创建使用 Ninject 服务的 Quartz 作业？

我正在使用 NET MVC 4 所有服务都是使用 Ninject 注入的我正在尝试使用 Quartz 来安排工作目前职位登记在Global asax如下 Global asax protected void Application S
MySQL 获取最高平均条目

我正在尝试编写一个 mysql 查询来返回平均课程评分最高的前 3 门课程我有两个表评级和课程评分表 courseId rating 1 6 2 2 1 4 2 5 3 3 4 0 6 0 课程表 courseId cnum cnam
Apple 登录无法在 iOS 14 模拟器上运行

当我尝试登录 iOS 14 中的模拟器时加载旋转器会一直旋转 Apple 开发者论坛上有一个主题here https developer apple com forums thread 651533但没有解决方案苹果也没有回应我当然可
不确定我的自动编码器神经网络从 Keras 预测中给出的结果

我正在尝试构建一个自动编码器神经网络用于在单列文本列表中查找异常值我的输入有 138 行它们看起来像这样 amaze header 2 png amaze header png circle shape xml disableable
如何从使用 exec() 的存储过程创建复杂类型？

我想通过动态构造并执行的查询创建一个复杂类型以便在实体管理器中使用exec 是否可以既然我正在写一个过滤器如果不可能的话你会做什么另外我正在使用 linq 进行评估但过滤器需要许多表及其寄存器因此效率是一个问题谢谢是的您
使用适用于 API v2 的 Dropbox Java SDK 时出现 SSLHandshakeException

In a XPages我想使用的应用程序适用于 API v2 的 Dropbox Java SDK 2 1 2 获取有关我的 Dropbox 帐户的信息以下代码用于检索相应的帐户对象 String atoken DbxRequestCon
Ruby 空白：{ :a => 1 } 比 {:a => 1} 更好吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案看看其他人的代码在花括号块内包含额外的空格似乎很常见这是有原因的吗对我来说这似乎增加了额外的击键从而增加了丑陋特别是当事情嵌套时 l
通过 AJAX 加载的页面上的 reCAPTCHA 字段不会加载。建议？

实例没有 AJAX http utsarotaract org inc email php 使用 AJAX 单击给我们发送电子邮件链接 http utsarotaract org contact php 当我查看源页面时一切正常但是当
Selenium/BeautifulSoup - WebScrape 该字段

我的代码运行良好并打印除带有下拉列表的行之外的所有行的标题例如如果单击第 4 行则会出现一个下拉菜单我实现了一个尝试理论上会单击下拉菜单然后拉出标题但是当我执行 click 并尝试打印时对于具有这些下拉列表的行它们不

Selenium/BeautifulSoup - WebScrape 该字段

Selenium/BeautifulSoup - WebScrape 该字段 的相关文章

随机推荐

热门标签

Selenium/BeautifulSoup - WebScrape 该字段的相关文章