selenium小项目实践

2023-11-06

1. 斗鱼爬虫

1.1 思路分析：

数据的位置

每个房间的数据都在id=live-list-contentbox的ul中
实现翻页和控制程序结束

selenium中通过点击就可以实现翻页，观察存在下一页和不存在下一页时候标签的变化

存在下一页时：

不存在下一页时：

1.2 参考代码

from selenium import webdriver
import time
 
 
class DouYu:
    def __init__(self):
        self.start_url = "https://www.douyu.com/directory/all"
        self.driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')
 
    def get_content_list(self): #提取数据
        li_list = self.driver.find_elements_by_xpath("//ul[@id='live-list-contentbox']/li")
        content_list = []
        for li in li_list:
            item = {}
            item["title"] = li.find_element_by_xpath("./a").get_attribute("title")
            item["anchor"] = li.find_element_by_xpath(".//span[@class='dy-name ellipsis fl']").text
            item["watch_num"] = li.find_element_by_xpath(".//span[@class='dy-num fr']").text
            # print(item)
            content_list.append(item)
 
        #提取下一页的元素
        next_url = self.driver.find_elements_by_xpath("//a[@class='shark-pager-next']")
        next_url = next_url[0] if len(next_url)>0 else None
        return content_list,next_url
 
    def save_content_list(self,content_lsit):#保存
        for content in content_lsit:
            print(content)
 
    def run(self): #实现主要逻辑
        #1. start_url
        #2. 发送请求，获取响应
        self.driver.get(self.start_url)
        #3. 提取数据
        content_list,next_url = self.get_content_list()
        #4.保存
        self.save_content_list(content_list)
        # 5. 下一页数据的提取
        while next_url is not None:
            next_url.click() #页面没有完全加载完，会报错
            time.sleep(3)
            content_list,next_url = self.get_content_list()
            self.save_content_list(content_list)
 
 
if __name__ == '__main__':
    douyu = DouYu()
    douyu.run()

2. 网易云音乐爬虫

完成网易云音乐的所有列表的名字和url地址地址：网易云音乐

2.1 思路分析：

确定程序入口的位置
确定首页数据的位置和url地址
实现翻页和程序停止的判断

2.2 参考代码

from selenium import webdriver
import time
 
 
class CloudMuisc():
 
    def __init__(self):
        self.start_url = 'http://music.163.com/#/discover/playlist'
        self.driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')
 
    def get_content_list(self): #提取数据
        # 切入frame标签
        login_frame = self.driver.find_element_by_id('g_iframe')  # 根据id定位 frame元素
        self.driver.switch_to.frame(login_frame)  # 转向到该frame中
 
        li_list = self.driver.find_elements_by_xpath('//*[@id="m-pl-container"]/li')
        print(len(li_list))
        content_list = []
        for li in li_list:
            item = {}
            item["title"] = li.find_element_by_class_name('msk').get_attribute("title")
            item["href"] = li.find_element_by_xpath('.//a').get_attribute("href")
            # print(item)
            content_list.append(item)
 
        #提取下一页的元素
        page_url_list = self.driver.find_elements_by_xpath('.//div[@class="u-page"]/a')
        next_url = page_url_list[-1] if len(page_url_list)>0 else None
        return content_list, next_url
 
    def save_content_list(self,content_lsit):#保存
        for content in content_lsit:
            print(content)
 
    def run(self): #实现主要逻辑
        #1. start_url
        #2. 发送请求，获取响应
        self.driver.get(self.start_url)
        time.sleep(3)
        #3. 提取数据
        content_list, next_url = self.get_content_list()
        #4.保存
        self.save_content_list(content_list)
        # 5. 下一页数据的提取
        while next_url is not None:
            js = 'window.scrollTo(0,document.body.scrollHeight)'  # js语句：滚动到页面最底部
            self.driver.execute_script(js)  # 执行js的方法
            print(next_url.get_attribute('href'))
            next_url.click() #页面没有完全加载完，会报错
            time.sleep(3)
 
            # 此时在iframe标签中 代码逻辑需要我们先切出
            windows = self.driver.window_handles
            self.driver.switch_to.window(windows[0])
 
            content_list, next_url = self.get_content_list()
            self.save_content_list(content_list)
 
        # 6. 退出driver
        self.driver.quit()
 
 
if __name__ == '__main__':
 
    spider = CloudMuisc()
    spider.run()

selenium小项目实践_ arthur的博客-CSDN博客

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

2021测试

selenium

selenium小项目实践的相关文章

WatiN 还是 Selenium？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
将 jQuery 与 Selenium WebDriver 结合使用 - 如何将 JSON 对象转换为 WebElement？

我正在使用 Selenium WebDriver 我想执行 jQuery 代码来查找一些元素我的代码如下 public function uploadGrantDoc script return itemlist grant file u
Selenium Web 驱动程序如何知道新窗口何时打开，然后恢复执行

我在使用 Selenium Web 驱动程序自动化 Web 应用程序时遇到问题该网页有一个按钮单击该按钮会打开一个新窗口当我使用以下代码时它会抛出OpenQA Selenium NoSuchWindowException No wi
Selenium Grid：设置 chrome *binary* 路径

注意我不是在询问设置 chrome 的路径driver 我想使用特定版本的 Chromium 运行 Selenium 节点而不是系统上安装的默认 Chrome 这网络驱动程序文档 https sites google com a chr
在 pytest 中，如何判断测试是否失败？（来自“请求”）

我正在使用 Selenium 和 PYTEST 来测试网站我想在测试失败时并且仅在测试失败时截取页面的屏幕截图有什么办法可以做到这一点吗当谈到这个时文档很安静或者我找不到它我认为它会是这样的 request function
所有区域的启用保护模式必须设置为相同的值（启用或禁用）

我正在尝试使用Selenium Internet Explorer驱动程序但当我尝试实例化它时它崩溃了 TestInitialize public void TestInitialise ieDriver new InternetExpl
Whatsapp 自动机器人无法在 WhatsApp 联系人列表中搜索

我正在尝试实现一个 WhatsApp 机器人它使用chromedriver并打开 Whatsapp 网页并向联系人发送消息这些是该程序的步骤从 Excel 文件中读取联系人信息设置您想要发送消息的时间以及要发送的消息搜索该名称并
使用 Protractor 检查浏览器控制台中没有错误

我正在使用 Protractor 来测试 AngularJS 我想检查在测试结束时是否没有发生未捕获的异常并打印到浏览器控制台有没有一种简单的方法可以做到这一点如果您将 Protractor 与 Jasmine 一起使用请使用以下代码
使用 Selenium WebDriver 选择元素，然后选择文本

我正在使用 Selenium WebDriver 和 Python 绑定来自动执行一些单调的 WordPress 任务到目前为止一切都非常简单我正在尝试选择一个复选框但识别它的唯一方法是通过它后面的文本以下是 HTML 的相关部分
如何使网页在 python selenium 中加载时完全显示？

我的主要目标是阅读网页中的表格并解释它所具有的总元素但是因为你必须向下滚动才能找到其他不被这句话追赶的元素 table css driver find elements by id DeletButtn 然后我决定放大到 30 以捕捉
从 nowgoal 获取表值出现索引错误

我对刮擦很陌生我收到的链接来自nowgoal http www nowgoal3 com 下面是我如何开始导航到上面的页面我不希望获得所有比赛的链接但我会有一个输入文本文件它是附在这里 https drive google com
selenium 4.0.0b4：“无法打开新选项卡 - 没有打开浏览器”

我有 chrome 和 chromedriver 91 0 4472 101 selenium python 4 0 0b4 如果我启用永久用户配置文件以下代码尝试通过 switch to new window 打开新选项卡会失败注释掉
在 selenium 下运行 chromedriver 日志时，如何减少其详细程度？

我的功能测试的詹金斯失败报告充满了这样的行 selenium webdriver remote remote connection DEBUG Finished Request selenium webdriver remote remot
如何将代码重用添加到我的 Selenium 测试中？

这是我正在处理的情况在 Selenium 中构建测试让所有测试正确运行在 Firefox 中将所有测试导出到MSTest 以便每个测试都可以在IE Chrome和FF中运行如果需要修改任何测试请在 Selenium IDE 中进
通过 CLI 标志在隐身模式下启用 Chrome 扩展？

我正在使用 selenium 来测试 chrome 扩展部分扩展要求用户处于隐身模式目前除了添加参数之外我还无法在启动时允许扩展程序处于隐身模式user data dir path to directory 这样做的问题是它从我的
在 pom 中添加 selenium 依赖项后，AWS Lambda Jar 无法压缩

这是一个奇怪的错误将 selenium 依赖项添加到我的 maven 项目的 pom 并将其上传到 lambda 后它说无法解压缩文件然而在删除依赖项之后 lambda 能够很好地解压缩文件但是它会出现一个随后找不到的类我尝试一
Maven 项目不会在 selenium 项目的 test-output 文件夹中生成 testng 结果

我用 selenium 和 TestNG 创建了 Maven 项目当我使用 pom 文件运行项目时它不会生成 TestNG 结果测试输出文件夹但是当我将项目运行为 testng xml gt 右键单击运行为 gt TestNG 套
使用 Selenium 在选项卡之间切换并对个人执行操作

我正在尝试提取 URL 将其打开到新选项卡中然后执行一些操作我的代码是 urls self driver find elements by xpath div id maincontent table tbody tr td a hre
org.openqa.selenium.NoSuchSessionException：会话 ID 为空。调用 quit() 后使用 WebDriver？

我已经进行了一些搜索但仍然遇到同样的问题我相信这可能是由于我的网络驱动程序是静态的造成的我不太确定在我的主课中我包括了 BeforeTest and AfterTest BeforeTest包括根据我的 XML 文件启动新浏览器
如何在selenium服务器上提供自定义功能？

我知道可以通过某种方法获得一些硒功能其中之一如下 driver getCapabilities getBrowserName 它返回浏览器名称的值但如果它指的是一个可用的方法如果我没有误解的话这似乎与自定义功能有关就像我的意思是

随机推荐

SIMPLIS仿真软件1－SIMPLIS介绍

SIMPLIS仿真软件1 SIMPLIS介绍导读 SIMPLIS是什么 SIMPLIS的三种分析模式 SIMPLIS的三个关键概念 1 SIMPLIS是时域仿真 2 SIMPLIS的模型都是PWL模型 3 SIMPLIS的特有的POP的作
hausman检验_互助问答第302期：关于内生性检验的问题

http weixin qq com r PTkwKHjEvSXCrTxL92wv 二维码自动识别关于内生性检验的问题老师您好关于内生变量的检验常常相互矛盾请问应当以哪种检验结果为准呢 1 首先进行豪斯曼检验结果如下结论拒绝所有解
怎样才能从Java初级程序员成长为一名合格的架构师？

怎样学习才能从一名Java初级程序员成长为一名合格的架构师或者说一名合格的架构师应该有怎样的技术知识体系这不仅仅是一个刚刚踏入职场的初级程序员也是工作三五年之后开始迷茫的老程序员经常会问到的问题下面我来详细回答这些问题希望这篇文章
基于Python和mysql开发的智慧校园答题考试系统(源码+数据库+程序配置说明书+程序使用说明书)

一项目简介本项目是一套基于Python和mysql开发的智慧校园答题考试系统主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Python学习者包含项目源码项目文档数据库脚本等该项目附带全部源码可作为毕设使用项目
搭建自己的searx搜索引擎

Searx是一个隐私尊重的免费元搜索引擎它具有以下功能特性自我托管默认不使用 Cookie 不跟踪不分析用户不收集用户数据不与第三方共享用户数据提供安全的加密连接 HTTPS SSL 等如果您更在意隐私而不是效率这会是一个
PPTP L2TP IPsec

点对点隧道协议 PPTP PPTP是一个第2层的协议将PPP数据桢封装在IP数据报内通过IP网络如Internet传送 PPTP还可用于专用局域网络之间的连接 RFC草案点对点隧道协议对PPTP协议进行了说明和介绍该草案由PPTP
springboot+cache缓存下（原理篇）

原理 1 自动配置类 CacheAutoConfiguration 在idea中使用快捷键ctrl shift n 查找出CacheAutoConfiguration类看到import中有导入CacheConfigurationImpor
S7-1200 PLC的数据类型

S7 1200 PLC的数据类型除了基本数据类型之外还支持一些复杂的数据类型包括结构数据类型Struct PLC数据类型UDT 数组Array 系统数据类型SDT 硬件数据类型DB ANY 参数数据类型Variant String和C
C++11静态断言static_assert

C 11静态断言static assert 一运行时断言二静态断言的需求三静态断言四单参数版本的静态断言一运行时断言断言 assertion 是一种编程中常用的手段在通常情况下断言就是将一个返回值总是需要为真的判别式
vue3 组合式api中 ref 和$parent 的使用

ref 的使用 vue3中在组件中添加一个 component ref xxx 就可以在父组件中得到子组件的 dom 对象以及虚拟的 dom 对象有了虚拟 dom 我们就可以在父组件中控制子组件的显示了 ref 的使用方法 vu
vue中的富文本框的使用（vue-quill-editor）

一安装 vue quill editor npm install vue quill editor 二在main js中引入 import VueQuillEditor from vue quill editor import quil
Android Widget：DrawerLayout配合Toolbar的使用及常见问题

前言最近在仿写网易云音乐安卓端界面记录下所遇到的问题及解决方案 DrawerLayout的基础使用 DrawerLayout经常配合NavigationView及Toolbar使用编写侧滑栏 1 首先添加支持 implementati
MapReduce处理csv

MapReduce处理csv csv是由逗号来分割的文件在编写Mapper类的时候需要以分割成一个个的数据查看一下csv数据以上是为了测试做的数据要处理的结果就是经过mapreduce再原封不动的出来因为是测试所以内容不做任
搭建虚拟专网络服务器

搭建虚拟专网络服务器准备环境一台windows server2008R2 服务器没有安装ad域服务的 IP地址为 192 168 4 92 一台物理机windows 10 家庭版 1 首先安装网络策略和访问服务第二步勾选上远程访
为什么普通人赚钱这么难？普通人的赚钱之路在哪里

前几天听一个老家的朋友说辛辛苦苦一整年发现并没有赚到什么钱付出与收入不成正比首先要知道勤奋努力并不一定就能够赚到钱像送外卖的工地上班的厂里上班的哪个不勤奋但他们即使非常努力工作一个月扣除基本开支也存不了多少钱那普通人
GNS3-GREvpn

GREvpn 发一下这些日忙的东西实验拓扑以R2为界限的左半边运行ospf 各个链路已经ping通用R7模拟PC1 PC1和R2的f0 0来回链路没问题右半边同左半边做相应的配置也成功ping通在R2和R3之间建立vpn隧道网段
利用Matlab绘制图像中的某一行或者某一列的灰度曲线

filename C Users Administrator Desktop 透视变换包含裂缝的整个图片 123 jpg imgData imread filename imshow imgData 该函数可以用来显示已经读入的数据 A
解决AD中pcb原件移动提示绿色报错问题

有可能以下三个原因之一所导致的 1 不符合DRC规则比如原件之间距离过近就是报错 2 右下角ROOM没有删除右键清楚就可以啦 3 如果以上两个确证都是正常的还是报错的话终极解决方案 step1 在pcb界面下点击design n
主线3.1DeepFM模型论文阅读：DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

文章目录一摘要二模型演变和各模型间的对比 1 CTR的任务要求 2 DeepFM模型的引入 3 各模型间的对比 4 DeepFM优势三 DeepFM模型介绍 1 FM部分 2 Deep部分一摘要对于一个基于CTR预估的推荐系
selenium小项目实践

1 斗鱼爬虫爬取斗鱼直播平台的所有房间信息游戏直播全部游戏直播斗鱼直播 1 1 思路分析数据的位置每个房间的数据都在id live list contentbox的ul中实现翻页和控制程序结束 selenium中通过点击就可以

selenium小项目实践

1. 斗鱼爬虫

1.1 思路分析：

1.2 参考代码

2. 网易云音乐爬虫

2.1 思路分析：

2.2 参考代码

selenium小项目实践 的相关文章

随机推荐

热门标签

selenium小项目实践的相关文章