随着短视频的大火,不仅可以给人们带来娱乐,还有热点新闻时事以及各种知识,刷短视频也逐渐成为了日常生活的一部分。本
文以一个简单的小例子,简述如何通过Pyhton依托Selenium来爬取短视频,仅供学习分享使用,如有不足之处,还请指正。
涉及知识点
关于爬虫涉及知识点,如下所示:
•selenium,作为浏览器端一个自动化测试工具,可以模拟用户操作浏览器的动作,就像是人自己操作浏览器一样。关于selenium的具体信息如下
◦Selenium进行元素定位,主要有ID,Name,ClassName,Css Selector,Partial LinkText,LinkText,XPath,TagName等8种方式。
◦Selenium获取单一元素(如:find_element)和获取元素数组(如:find_elements)两种方式。
◦Selenium元素定位后,可以给元素进行赋值和取值,或者进行相应的事件操作(如:click)。
•requests,web请求对象,通过selenium获取到视频的url后,再通过requests库进行视频流的获取,然后保存成本地视频文件。
•浏览器开发者工具,通过开发者工具可以查看页面上某一个按钮或链接等页面元素对应的html标识。
目标分析
在爬取视频之前,需要分析目标结构,本视频爬取分析可分为三步,具体如下所示:
1. 分析热榜目录
热榜目录是一个ul标签,每一个热榜对象一个li子标签,分别包含热度,标题等内容。点击标题链接可以进入具体视频播放页面,
目标分析如下所示:
2.分析视频播放页面
视频在video标签中播放,短视频播放的真实地址,在video的source子标签中,且为了保证播放质量,video下有三个source,任
取其一即可
3. 分析弹出框
在爬取过程中,经过弹出需要登录的窗口,需要及时关闭掉,否则可能会导致找不到页面元素,从而爬取不成功。如下所示:
核心代码
经过以上分析,就可以编写爬虫代码了,
1. 遍历热点目录
通过获取页面上对应的信息,解析出热点视频的目录,如下所示:
Python学习交流Q群;906715085###
self.__driver.get(self.__url)
self.close_popup_window()
#4. 最大化窗口
self.__driver.maximize_window()
time.sleep(self.__wait_sec)
#打开以后,根据class=BHgRhxNh获取ul下的li
if self.checkIsExistsByClass(cls='BHgRhxNh'):
#获取
hots = self.__driver.find_elements(by=By.CLASS_NAME, value