抖音综合榜单数据爬虫案例

2023-11-13

偶然在抖音创作平台中看到了一系列的排行榜,如热搜榜、热门视频榜、娱乐明星榜、音乐榜等等。

网页链接: https://creator.douyin.com/billboard/home 登陆后可见数据

在这里插入图片描述


榜单接口

接口名 类型 链接
热搜榜单 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=1
热点上升榜 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=9
今日热门视频 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=4
娱乐明星 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=2
体育热力 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=3
直播榜单 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=10
热歌榜 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=5
音乐飙升榜 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=6
原创音乐榜 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=7
二次元榜单 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=61
搞笑榜单 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=86
旅行 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=91
剧情 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=81
美食榜 Get https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=71

以上接口是不能直接进行访问的,需要在请求的时候加上Referer,下面以《今日热门视频》数据为例


今日热门视频

已知今日热门视频的数据接口 和请求方式,可以直接使用requests进行请求。
代码非常简单,请求其他的接口只需要更换 url 即可。

import requests

hot_video_url = 'https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=4'

headers = {
           "user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36",
           "referer": "https://creator.douyin.com/billboard/hot_aweme"
           }

response = requests.get(url=hot_video_url, headers=headers).json()

print(response)

返回数据示例:
在这里插入图片描述


获取视频详情

在返回过来的数据中,可以看到并没有视频的详细内容,
只有作者名auhor,视频背景图 img_url,分享页链接link,排名rank,标题title,热度value

当想要获得更多的视频信息,比如点赞、转发、评论 或者是 作者的信息,就需要通过其他接口来获取数据。

这里随便选择了一个分享链接Link:
https://www.iesdouyin.com/share/video/6844023242781412622/?region=CN&mid=6844023258854345479&u_code=0&titleType=title
在这里插入图片描述
通过抓包发现了数据的接口:
https://www.iesdouyin.com/web/api/v2/aweme/iteminfo/?item_ids=6844023242781412622

(该接口可直接访问。只有一个 item_ids 参数,可以发现该item_ids和分享链接上video后面的id相同 )

返回数据如下:
在这里插入图片描述


代码示例

先获取《今日热门视频》集合,然后提取出每一个视频对应的item_ids,再根据id获取详细的视频数据

# -*- coding: utf-8 -*-

import requests
import re

hot_video_url = 'https://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=4'

headers = {
           "user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36",
           "referer": "https://creator.douyin.com/billboard/hot_aweme"
           }

response = requests.get(url=hot_video_url, headers=headers).json()


for video in response['billboard_data']:
    link = video['link']            # 分享页链接
    title = video['title']          # 视频标题
    rank = (video['rank'])          # 当前排名
    hot_value = video['value']      # 当前热度

    items_ids = re.findall('video/(.*?)/', link)[0]    # 获取详情数据需要的id

    video_detail_url = 'https://www.iesdouyin.com/web/api/v2/aweme/iteminfo/?item_ids={}'.format(items_ids)

    detail = requests.get(video_detail_url,headers=headers).json()

    print(detail['item_list'][0]['share_url'])

    break   # 只取1条,示例

刚看了一下更新了 2020/09/08

部分接口需要在请求的时候加上cookie,否则会返回 {‘status_msg’: ‘无权限操作’}

可以把整个cookie都复制出来加到header中,也可以只复制里面到 sid_guard

headers = {
           "user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36",
           "referer": "https://creator.douyin.com/billboard/hot_aweme",
           "cookie":"sid_guard=(这是个示范)"
           }
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

抖音综合榜单数据爬虫案例 的相关文章

  • 使用代理服务获取网页源代码测试

    import requests url 输入测试访问网址 headers User Agent Mozilla 5 0 Windows NT 10 0 Win64 x64 AppleWebKit 537 36 KHTML like Geck
  • [python应用案例] 一.BeautifulSoup爬取天气信息并发送至QQ邮箱

    前面作者写了很多Python系列文章 包括 Python基础知识系列 Python基础知识学习与提升 Python网络爬虫系列 Python爬虫之Selenium Phantomjs CasperJS Python数据分析系列 知识图谱 w
  • 10.网络爬虫—MongoDB详讲与实战

    网络爬虫 MongoDB详讲与实战 MongoDB MongoDB安装 创建数据目录 1 数据库操作 2 集合操作 3 文档操作 4 索引操作 5 聚合操作 6 备份与恢复 MongoDB增删改查 mongodb集合的增删改查 数据插入到表
  • python网络爬虫之Max retries exceeded with url错误

    ConnectionError HTTPSConnectionPool host cq feibaos com port 443 Max retries exceeded with url news lists notice html re
  • 5.网络爬虫——Xpath解析

    网络爬虫 Xpath解析 Xpath简介 Xpath解析 节点选择 路径表达式 谓语 未知节点 Xpath实战演示 豆果美食实战 获取数据 源代码 前言 此专栏文章是专门针对Python零基础爬虫 欢迎免费订阅 第一篇文章获得全站热搜第一
  • 12.网络爬虫—线程队列详讲(实战演示)

    网络爬虫 线程队列详讲与实战 线程 队列 Queue模块介绍 线程和队列的关系 生产者消费者模式 实战演示 王者荣耀照片下载 使用生产者消费者模式 前言 个人简介 以山河作礼 Python领域新星创作者 CSDN实力新星认证 第一篇文章 1
  • python网络爬虫--项目实战(1)--500px图片爬取

    一 目标 爬取500px图片并保存 目标网址 https 500px com cn community discover 二 分析 2 1 网站分析 经过研究发现该网站没有点击下一页的按钮 然后往下拖动下拉条直到最后 会自动刷新出新的内容
  • Python网络爬虫:爬取CSDN热搜数据 并保存到本地文件中

    hello 大家好 我是wangzirui32 今天我们来学习如何爬取CSDN热搜数据 并保存到Excel表格中 开始学习吧 学习目录 1 数据包抓取 2 编写代码 1 数据包抓取 打开CSDN首页 再打开检查 或为审查元素 各大浏览器不同
  • [Python Scrapy爬虫] 二.翻页爬取农产品信息并保存本地

    前面 Python爬虫之Selenium Phantomjs CasperJS 介绍了很多Selenium基于自动测试的Python爬虫程序 主要利用它的xpath语句 通过分析网页DOM树结构进行爬取内容 同时可以结合Phantomjs模
  • python分布爬虫基础知识day2

    url详解 URL是Uniform Resource Locator的简写 统一资源定位符 一个URL由以下几部分组成 scheme host port path query string xxx anchor scheme 代表的是访问的
  • 嘉兴市人才网即时招聘栏目Ajax动态翻页爬虫练习

    声明 代码仅供技术学习交流 不作其他用途 即时招聘 https www jxrsrc com Index MoreInfo aspx TypeID 34 打开页面后拉到底下点下一页翻页发现浏览器中的地址没有发生变化 分析后这个网站是用ASP
  • [python知识] 爬虫知识之BeautifulSoup库安装及简单介绍

    一 前言 在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客 维基百科InfoBox和图片 其文章链接如下 python学习 简单爬取维基百科程序语言消息盒 Python学习 简单网络爬虫抓取博客文章及思想介绍 python
  • [Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

    前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索 Eastmount 关键字及截图的功能 而这篇文章主要简单介绍如何实现自动登录163邮箱 同时继续介绍Selenium Python官网Locating
  • [python爬虫] 爬取图片无法打开或已损坏的简单探讨

    本文主要针对python使用urlretrieve或urlopen下载百度 搜狗 googto 谷歌镜像 等图片时 出现 无法打开图片或已损坏 的问题 作者对它进行简单的探讨 同时 作者将进一步帮你巩固selenium自动化操作和urlli
  • 16.网络爬虫—字体反爬(实战演示)

    网络爬虫 字体反爬 一 字体反爬原理 二 字体反爬模块Fonttools TTF文件 三 FontCreator 14 0 0 2790 FontCreatorPortable下载与安装 四 实战演示 五 后记 前言 个人简介 以山河作礼
  • 13.网络爬虫—多进程详讲(实战演示)

    网络爬虫 多进程详讲 一 进程的概念 二 创建多进程 三 进程池 四 线程池 五 多进程和多线程的区别 六 实战演示 北京新发地线程池实战 前言 个人简介 以山河作礼 Python领域新星创作者 CSDN实力新星认证 第一篇文章 1 认识网
  • python网络爬虫--selenium(6)--练习

    一 打开网页获取页面源码 from selenium webdriver chrome import webdriver 初始化 需要加载浏览器驱动 driver webdriver WebDriver executable path ch
  • 4.网络爬虫—Post请求(实战演示)

    网络爬虫 Post请求实战演示 POST请求 GET请求 POST请求和GET请求的区别 获取二进制数据 爬 百度官网 https www baidu com logo实战 发送post请求 百度翻译实战 使用session发送请求 模拟登
  • 抖音APP接口分析

    抖音搜索接口 接口名 类型 链接 搜索用户综合信息 post https aweme hl snssdk com aweme v1 challenge search 搜索相关用户列表 post https search hl amemv c
  • 4.网络爬虫—Post请求(实战演示)

    网络爬虫 Post请求实战演示 POST请求 GET请求 POST请求和GET请求的区别 获取二进制数据 爬 百度官网 https www baidu com logo实战 发送post请求 百度翻译实战 使用session发送请求 模拟登

随机推荐

  • Embedding-based Retrieval in Facebook Search 文献翻译

    Embedding based Retrieval in Facebook Search 摘要 在 Facebook 等社交网络中进行搜索与经典网络搜索相比面临不同的挑战 除了查询文本之外 考虑搜索者的上下文以提供相关结果也很重要 他们的社
  • PHP模版语法支持vue,Vue.js中关于常用模板语法的具体介绍

    本篇文章主要介绍了Vue js学习笔记之常用模板语法详解 小编觉得挺不错的 现在分享给大家 也给大家做个参考 一起跟随小编过来看看吧 本文介绍了Vue js 常用模板语法 分享给大家 具体如下 一 文本渲染 Vue支持动态渲染文本 即在修改
  • 深度学习模型部署学习四

    在 PyTorch 中支持更多 ONNX 算子 学习链接 模型部署入门教程 四 在 PyTorch 中支持更多 ONNX 算子 写在前面 本文档为学习上述链接的相关记录 基本内容一致 仅用于学习用途 若侵权请联系我删除 在 PyTorch
  • 视频文件转gif图片Movie To GIF使用

    系列文章目录 前言 在写博客的时候 如果你想把视频文件上传到网页上怎么办 可能有些网页只支持gif文件格式上传 无法直接上传wmv MP4 等视频格式 怎么办 百度上搜索的视频转gif格式工具 要么是要收费的 要么就是有时间后者视频大小限制
  • 印能捷服务器中文字显示方块,修改Preps中文标记字体解决PJTF/JDF无法导入印能捷问题...

    修改Preps中文标记字体解决PJTF JDF无法导入印能捷问题 书法字体2014 04 11AdobeHeitiStd Regular Preps是大家最常用的印刷拼大版软件 特别是配合印能捷流程出版十分方便 不过 preps的标记如果采
  • THE、QS等四大世界大学排名对比 计算机专业究竟哪家强?

    泰晤士高等教育世界大学排名 QS世界大学排名 USNews世界大学排名 上海软科世界大学学术排名是公认的四大权威世界大学排名 今年9月 英国 泰晤士高等教育 Times Higher Education 简称THE 发布了2020世界大学排
  • Linux下编辑并保存文件操作步骤

    墙裂建议看下 戳 vi 和 VIM的区别 详细介绍了编辑文件保存 步骤一 打开命令控制台找到要编辑的文件 可执行命令ls看看下面有几个文件 如要编辑的文件名称为 test 步骤二 打开文件 命令 vi 文件名 如打开文件test vi te
  • 编译器一定会生成默认构造函数和默认析构函数吗-不一定

    构造函数 以下四种情况同时满足时 编译器认为不用生成默认构造函数 1 没有虚函数 2 非静态成员没有 或者 的初始化 比如 int x 3 编译器就会给生成默认构造函数 3 直接继承的基类没有默认构造函数 4 成员函数没有默认构造函数 反过
  • AssetBundle详解与优化

    https www jianshu com p 5226659533cd 1 AssetBundle原理 AssetBundle是Unity中的一种资源包 这种资源包可以是游戏内要用到的几乎所有资源 例如 模型 纹理 预设 场景等大部分文件
  • Windows小技巧13-Windows10无法与时间服务器同步

    Windows小技巧13 Windows10无法与时间服务器同步 异常概述 解决方法 说明 异常概述 最近打开windows 同步时间 发现经常报同步失败的错误 具体如下图所示 经过几次查阅 重试 发现可以自己选择或者定义其他 ntp 同步
  • TestNG+Mybatis+Extent+lombok管理测试

    一 项目结构 maven引入jar包
  • GqlQuery 类

    http wapbaike baidu com view 8965981 htm uid D0604A052A48B0F5013EC29A99F19073 bd page type 1 st 3 step 2 net 0 ldr 0 概述
  • csv反序列化_Python实现序列化及csv文件读取

    导读热词 这篇文章主要介绍了Python实现序列化及csv文件读取 文中通过示例代码介绍的非常详细 对大家的学习或者工作具有一定的参考学习价值 需要的朋友可以参考下 一 python 序列化 序列化指的是将对象转化为 串行化 数据形式 存储
  • 阿里达摩院金榕:从技术到科学,中国AI向何处去?

    点击下方卡片 关注 CVer 公众号 AI CV重磅干货 第一时间送达 本文转载自 机器之心 作者 金榕 阿里巴巴达摩院副院长 原密歇根州立大学终身教授 如果从达特茅斯会议起算 AI 已经走过 65 年历程 尤其是近些年深度学习兴起后 AI
  • Python爬虫的解析(学习于b站尚硅谷)

    目录 一 xpath 1 xpath插件的安装 2 xpath的基本使用 1 xpath的使用方法与基本语法 路径查询 谓词查询 内容查询 使用text查看标签内容 属性查询 模糊查询 逻辑运算 2 安装lxml库 3 代码的演示 3 获取
  • cmake升级及多版本管理

    查看原有的cmake cmake version which cmake gt gt gt usr bin cmake 下载要装的cmake源文件 解压并进入 使用已有的cmake安装 mkdir build cd build cmake
  • 计算机操作系统面试题

    一 认识汇编语言 汇编的本质是机器语言的助记符号 汇编语言本质就是机器语言 二 CPU的基本组成 PC 程序计数器 记录将要执行的指令的地址 Registers 暂时存储CPU计算需要用到的数据 ALU 寄存器中取到数据 进行运算然后将结果
  • 分布式存储基础知识

    2018 4 26 分布式存储的数据类型有以下三类 非结构化的数据 主要是数据之间的关联系不大 像文本图片之类的数据 结构化的数据 数据之间关联系很大 关系型数据库这种 可以用表进行表示的 半结构化的数据 介于上述两种数据类型之间 数据之间
  • DCMTK解析DICOM汇总

    DICOM头信息示例如下 0002 0000 Group Length VR UL Length 4 Value 184 0002 0001 File Meta Information Version VR OB Length 2 Valu
  • 抖音综合榜单数据爬虫案例

    偶然在抖音创作平台中看到了一系列的排行榜 如热搜榜 热门视频榜 娱乐明星榜 音乐榜等等 网页链接 https creator douyin com billboard home 登陆后可见数据 榜单接口 接口名 类型 链接 热搜榜单 Get