Python爬取某短视频热点

2023-10-27

随着短视频的大火,不仅可以给人们带来娱乐,还有热点新闻时事以及各种知识,刷短视频也逐渐成为了日常生活的一部分。本

文以一个简单的小例子,简述如何通过Pyhton依托Selenium来爬取短视频,仅供学习分享使用,如有不足之处,还请指正。

在这里插入图片描述

涉及知识点

关于爬虫涉及知识点,如下所示:

•selenium,作为浏览器端一个自动化测试工具,可以模拟用户操作浏览器的动作,就像是人自己操作浏览器一样。关于selenium的具体信息如下

◦Selenium进行元素定位,主要有ID,Name,ClassName,Css Selector,Partial LinkText,LinkText,XPath,TagName等8种方式。

◦Selenium获取单一元素(如:find_element)和获取元素数组(如:find_elements)两种方式。

◦Selenium元素定位后,可以给元素进行赋值和取值,或者进行相应的事件操作(如:click)。

•requests,web请求对象,通过selenium获取到视频的url后,再通过requests库进行视频流的获取,然后保存成本地视频文件。

•浏览器开发者工具,通过开发者工具可以查看页面上某一个按钮或链接等页面元素对应的html标识。

在这里插入图片描述

目标分析

在爬取视频之前,需要分析目标结构,本视频爬取分析可分为三步,具体如下所示:

1. 分析热榜目录

热榜目录是一个ul标签,每一个热榜对象一个li子标签,分别包含热度,标题等内容。点击标题链接可以进入具体视频播放页面,

目标分析如下所示:

2.分析视频播放页面

视频在video标签中播放,短视频播放的真实地址,在video的source子标签中,且为了保证播放质量,video下有三个source,任

取其一即可

在这里插入图片描述

3. 分析弹出框

在爬取过程中,经过弹出需要登录的窗口,需要及时关闭掉,否则可能会导致找不到页面元素,从而爬取不成功。如下所示:

核心代码

经过以上分析,就可以编写爬虫代码了,

1. 遍历热点目录

通过获取页面上对应的信息,解析出热点视频的目录,如下所示:

Python学习交流Q群;906715085###
self.__driver.get(self.__url)
self.close_popup_window()
#4. 最大化窗口
self.__driver.maximize_window()
time.sleep(self.__wait_sec)
#打开以后,根据class=BHgRhxNh获取ul下的li
if self.checkIsExistsByClass(cls='BHgRhxNh'):    
#获取    
hots = self.__driver.find_elements(by=By.CLASS_NAME, value
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬取某短视频热点 的相关文章

随机推荐

  • 数据分箱6——分箱结果进行WOE转化

    WOE的具体公式与含义请参考 特征筛选7 WOE Weight of Evidence IV值 Information Value 筛选特征 有监督筛选 WOE转化可以将分箱的阈值覆盖原有的值 一般来讲并不会改变预测精度 但是可以为可解释性
  • Softing的OPC UA C++ SDK全面升级:具有高功能性和易用性

    为支持反向连接 Reverse Connect 和访问全局发现服务器 Global Discovery Server GDS Softing的OPC UA C Software Development Kit SDK 已全面升级 OPC U
  • ARM Mali系列GPU驱动panfrost组成

    Alyssa Rosenzweig于2018年创立开源小组 通过对用户空间的3D驱动 kernel空间的ARM驱动进行逆向操作 重新构建panfrost驱动 在XDC2020会议上ARM宣布 开始接纳panfrost开源驱动并向其提供应有的
  • data-ajax=“false“

    1 概述 最近在做一个项目 由于涉及到跨平台性 所以采用了jquerymobile这个框架 在开发过程中 一开始为了图测试方便 采用了chrome浏览器来测试运行 现叙述如下问题 当在first html中 有个链接如 a href sec
  • Android TextView文字过长将后面View挤出屏幕解决方案

    前言 需求 横排两个 TextView 第一个 TextView 宽度自适应 第二个 TextView 宽度固定且跟随在 TextView 后面 第二个View可为任意View 宽度需已知 需要第一个View margin出相应宽度给第二个
  • 【写一个操作系统】3—汇编语言学习及Makefile入门

    目录 汇编代码 制作启动区程序 Makefile 今天的主要任务是通过对helloos nas核心代码汇的理解进行编语言的学习 还有就是Makefile的学习 汇编代码 主要是对上次的汇编文件helloos nas核心部分的学习 核心部分的
  • 服务器修改tomcat日志级别,远程 服务器tomcat日志监控

    远程 服务器tomcat日志监控 内容精选 换一换 MRS集群的日志保存路径为 var log Bigdata 日志分类见下表 MRS日志目录清单见下表 启用多实例功能后 如果系统管理员添加了多个HBase Hive和Spark服务的实例
  • PDManer数据库建模工具介绍

    pdmaner PDManer元数建模 是一款多操作系统开源免费的桌面版关系数据库模型建模工具 相对于PowerDesigner 他具备界面简洁美观 操作简单 上手容易等特点 支持Windows Mac Linux等操作系统 也能够支持国产
  • 寻找数列(构造+拓扑)

    寻找一个有n个整数的数列 满足下列条件 其中任意连续p个数之和是正数 其中任意连续q个数之和是负数 若无法找到 则输出 No 否则输出一个数值最小的数列 输入 n p q 输出 n个整数 样例 输入 5 4 3 输出 2 2 5 2 2 设
  • 通过BAT脚本批量修改文件名

    通过BAT脚本批量修改文件名 一 生成命名文件名列表 二 在excel中对应的行输入修改后的文件名 在这里插入图片描述 https img blog csdnimg cn 20201012102112886 png x oss proces
  • 这几天心里颇不宁静,采的不是信号,而是寂寞

    原文来自微信公众号 工程师看海 这几天心里颇不宁静 今晚在院子里坐着乘凉 忽然想起往日一同攻坚的战友 在这满月的光里 该是另一番样子吧 我们制定的uV级别信号的采集方案 从原理到模拟环境测试 一切都OK 然而真正到现场采集信号时却发现 压根
  • python获取时间日期列表集合

    python获取时间日期列表集合 以前过去以后未来 安装datedays pip install datedays import datedays if name main print 测试时间 datedays getnow print
  • python-获取当前目录/上级目录/上上级目录...

    获取文件 在其他人使用你的代码时 常常因为目录层级的问题为无法运行程序 所以在引起其他模块文件时 尽量采取绝对路径的方式导 python官方建议尽量的使用绝对目录 而不是相对目录 获取当前文件的绝对路径 os path abspath fi
  • 公式微分后,为什么是偏导的相加

    二郎在研究一个公式中 会涉及分析变量对最终结果产生影响时 注 最终结果 这里确实是最后需要获得的结果 数学公式一定要和物理对应 输入放在一边 输出放在一边 否则都放在一边 就全成自变量了 变量对最终结果影响 既然涉及了分析 那么我们就先说为
  • c++中分文件编写

    c 中分文件编写 本文内容来自某视频教程 分文件格式编写格式 h中写类的成员函数声明 cpp中写成员函数实现 代码案例 所有代码写在一个文件中 如下是一段没有分文件编写的代码 即将所有代码写在一个源文件中 如图所示 以下代码实现了利用全局函
  • nginx转发wss

    做了一个tp6 swoole的项目 没找到swoole开启ssl的资料 想起以前做过转发可以实现 就新建了一个站 然后转发到swoole的端口 也能实现wss的访问 下面是配置文件 upstream wss server 127 0 0 1
  • ERP、SCM、CRM的区别和联系?

    ERP 企业资源计划 SCM 供应链管理系统 CRM 客户关系管理 是当前企业信息系统三大热门话题 无论是ERP SCM 还是CRM其根本目标都在于提高企业管理水平 提高企业核心竞争力 本文怡海软件将分别从其含义 区别 联系 集成方面进行简
  • Unity Scroll View踩坑记录

    Unity要想实现游戏中的背包滑动效果 最简单的方法就是使用ScrollView这个组件 这个组件可以实现拖动滑动的效果 如上图所示 我希望将这些Item实现背包的排版效果 第一步 现将所有的Item移到Content下 此时我们会发现部分
  • Java集合——Java8之HashMap

    一 前言 在分析jdk1 8后的HashMap源码时 发现网上好多分析都是基于之前的jdk 而Java8的HashMap对之前做了较大的优化 其中最重要的一个优化就是桶中的元素不再唯一按照链表组合 也可以使用红黑树进行存储 总之 目标只有一
  • Python爬取某短视频热点

    随着短视频的大火 不仅可以给人们带来娱乐 还有热点新闻时事以及各种知识 刷短视频也逐渐成为了日常生活的一部分 本 文以一个简单的小例子 简述如何通过Pyhton依托Selenium来爬取短视频 仅供学习分享使用 如有不足之处 还请指正 涉及