Python爬取某短视频热点

2023-10-27

随着短视频的大火，不仅可以给人们带来娱乐，还有热点新闻时事以及各种知识，刷短视频也逐渐成为了日常生活的一部分。本

文以一个简单的小例子，简述如何通过Pyhton依托Selenium来爬取短视频，仅供学习分享使用，如有不足之处，还请指正。

在这里插入图片描述

涉及知识点

关于爬虫涉及知识点，如下所示：

•selenium，作为浏览器端一个自动化测试工具，可以模拟用户操作浏览器的动作，就像是人自己操作浏览器一样。关于selenium的具体信息如下

◦Selenium进行元素定位，主要有ID，Name，ClassName，Css Selector，Partial LinkText，LinkText，XPath，TagName等8种方式。

◦Selenium获取单一元素（如：find_element）和获取元素数组（如：find_elements）两种方式。

◦Selenium元素定位后，可以给元素进行赋值和取值，或者进行相应的事件操作（如：click）。

•requests，web请求对象，通过selenium获取到视频的url后，再通过requests库进行视频流的获取，然后保存成本地视频文件。

•浏览器开发者工具，通过开发者工具可以查看页面上某一个按钮或链接等页面元素对应的html标识。

在这里插入图片描述

目标分析

在爬取视频之前，需要分析目标结构，本视频爬取分析可分为三步，具体如下所示：

1. 分析热榜目录

热榜目录是一个ul标签，每一个热榜对象一个li子标签，分别包含热度，标题等内容。点击标题链接可以进入具体视频播放页面，

目标分析如下所示：

2.分析视频播放页面

视频在video标签中播放，短视频播放的真实地址，在video的source子标签中，且为了保证播放质量，video下有三个source，任

取其一即可

在这里插入图片描述

3. 分析弹出框

在爬取过程中，经过弹出需要登录的窗口，需要及时关闭掉，否则可能会导致找不到页面元素，从而爬取不成功。如下所示：

核心代码

经过以上分析，就可以编写爬虫代码了，

1. 遍历热点目录

通过获取页面上对应的信息，解析出热点视频的目录，如下所示：

Python学习交流Q群;906715085###
self.__driver.get(self.__url)
self.close_popup_window()
#4. 最大化窗口
self.__driver.maximize_window()
time.sleep(self.__wait_sec)
#打开以后，根据class=BHgRhxNh获取ul下的li
if self.checkIsExistsByClass(cls='BHgRhxNh'):    
#获取    
hots = self.__driver.find_elements(by=By.CLASS_NAME, value

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

Python实战项目

python

Python爬取某短视频热点的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht

随机推荐

数据分箱6——分箱结果进行WOE转化

WOE的具体公式与含义请参考特征筛选7 WOE Weight of Evidence IV值 Information Value 筛选特征有监督筛选 WOE转化可以将分箱的阈值覆盖原有的值一般来讲并不会改变预测精度但是可以为可解释性
Softing的OPC UA C++ SDK全面升级：具有高功能性和易用性

为支持反向连接 Reverse Connect 和访问全局发现服务器 Global Discovery Server GDS Softing的OPC UA C Software Development Kit SDK 已全面升级 OPC U
ARM Mali系列GPU驱动panfrost组成

Alyssa Rosenzweig于2018年创立开源小组通过对用户空间的3D驱动 kernel空间的ARM驱动进行逆向操作重新构建panfrost驱动在XDC2020会议上ARM宣布开始接纳panfrost开源驱动并向其提供应有的
data-ajax=“false“

1 概述最近在做一个项目由于涉及到跨平台性所以采用了jquerymobile这个框架在开发过程中一开始为了图测试方便采用了chrome浏览器来测试运行现叙述如下问题当在first html中有个链接如 a href sec
Android TextView文字过长将后面View挤出屏幕解决方案

前言需求横排两个 TextView 第一个 TextView 宽度自适应第二个 TextView 宽度固定且跟随在 TextView 后面第二个View可为任意View 宽度需已知需要第一个View margin出相应宽度给第二个
【写一个操作系统】3—汇编语言学习及Makefile入门

目录汇编代码制作启动区程序 Makefile 今天的主要任务是通过对helloos nas核心代码汇的理解进行编语言的学习还有就是Makefile的学习汇编代码主要是对上次的汇编文件helloos nas核心部分的学习核心部分的
服务器修改tomcat日志级别,远程服务器tomcat日志监控

远程服务器tomcat日志监控内容精选换一换 MRS集群的日志保存路径为 var log Bigdata 日志分类见下表 MRS日志目录清单见下表启用多实例功能后如果系统管理员添加了多个HBase Hive和Spark服务的实例
PDManer数据库建模工具介绍

pdmaner PDManer元数建模是一款多操作系统开源免费的桌面版关系数据库模型建模工具相对于PowerDesigner 他具备界面简洁美观操作简单上手容易等特点支持Windows Mac Linux等操作系统也能够支持国产
寻找数列（构造+拓扑）

寻找一个有n个整数的数列满足下列条件其中任意连续p个数之和是正数其中任意连续q个数之和是负数若无法找到则输出 No 否则输出一个数值最小的数列输入 n p q 输出 n个整数样例输入 5 4 3 输出 2 2 5 2 2 设
通过BAT脚本批量修改文件名

通过BAT脚本批量修改文件名一生成命名文件名列表二在excel中对应的行输入修改后的文件名在这里插入图片描述 https img blog csdnimg cn 20201012102112886 png x oss proces
这几天心里颇不宁静，采的不是信号，而是寂寞

原文来自微信公众号工程师看海这几天心里颇不宁静今晚在院子里坐着乘凉忽然想起往日一同攻坚的战友在这满月的光里该是另一番样子吧我们制定的uV级别信号的采集方案从原理到模拟环境测试一切都OK 然而真正到现场采集信号时却发现压根
python获取时间日期列表集合

python获取时间日期列表集合以前过去以后未来安装datedays pip install datedays import datedays if name main print 测试时间 datedays getnow print
python-获取当前目录/上级目录/上上级目录...

获取文件在其他人使用你的代码时常常因为目录层级的问题为无法运行程序所以在引起其他模块文件时尽量采取绝对路径的方式导 python官方建议尽量的使用绝对目录而不是相对目录获取当前文件的绝对路径 os path abspath fi
公式微分后，为什么是偏导的相加

二郎在研究一个公式中会涉及分析变量对最终结果产生影响时注最终结果这里确实是最后需要获得的结果数学公式一定要和物理对应输入放在一边输出放在一边否则都放在一边就全成自变量了变量对最终结果影响既然涉及了分析那么我们就先说为
c++中分文件编写

c 中分文件编写本文内容来自某视频教程分文件格式编写格式 h中写类的成员函数声明 cpp中写成员函数实现代码案例所有代码写在一个文件中如下是一段没有分文件编写的代码即将所有代码写在一个源文件中如图所示以下代码实现了利用全局函
nginx转发wss

做了一个tp6 swoole的项目没找到swoole开启ssl的资料想起以前做过转发可以实现就新建了一个站然后转发到swoole的端口也能实现wss的访问下面是配置文件 upstream wss server 127 0 0 1
ERP、SCM、CRM的区别和联系?

ERP 企业资源计划 SCM 供应链管理系统 CRM 客户关系管理是当前企业信息系统三大热门话题无论是ERP SCM 还是CRM其根本目标都在于提高企业管理水平提高企业核心竞争力本文怡海软件将分别从其含义区别联系集成方面进行简
Unity Scroll View踩坑记录

Unity要想实现游戏中的背包滑动效果最简单的方法就是使用ScrollView这个组件这个组件可以实现拖动滑动的效果如上图所示我希望将这些Item实现背包的排版效果第一步现将所有的Item移到Content下此时我们会发现部分
Java集合——Java8之HashMap

一前言在分析jdk1 8后的HashMap源码时发现网上好多分析都是基于之前的jdk 而Java8的HashMap对之前做了较大的优化其中最重要的一个优化就是桶中的元素不再唯一按照链表组合也可以使用红黑树进行存储总之目标只有一
Python爬取某短视频热点

随着短视频的大火不仅可以给人们带来娱乐还有热点新闻时事以及各种知识刷短视频也逐渐成为了日常生活的一部分本文以一个简单的小例子简述如何通过Pyhton依托Selenium来爬取短视频仅供学习分享使用如有不足之处还请指正涉及

热门标签