whisper:robust speech recognition via large-sacle weak supervision

2023-11-07

OpenAI Whisper 精读【论文精读·45】_哔哩哔哩_bilibili更多论文：https://github.com/mli/paper-reading, 视频播放量 68331、弹幕量 327、点赞数 2332、投硬币枚数 1192、收藏人数 983、转发人数 394, 视频作者跟李沐学AI, 作者简介，相关视频：自动识别讲座、访谈录音 ——Python开源whisper语音识别，ChatGPT原理剖析李宏毅，(强推)李宏毅2021/2022春机器学习课程，Transformer论文逐段精读【论文精读】，博一研究生求偶视频，在线求偶｜26岁985副教授，本科生如何发表一作Nature子刊，在讲 OpenAI Whisper 前先做了一个剪视频小工具【论文精读·44】，算法领域的“大力出奇迹”：ChatGPT！李宏毅教授重磅解读ChatGPT的底层逻辑！感兴趣的同学赶紧收藏学习了！，46 语义分割和数据集【动手学深度学习v2】https://www.bilibili.com/video/BV1VG4y1t74x/?spm_id_from=333.999.0.0&vd_source=4aed82e35f26bb600bc5b46e65e25c22

语音模型的预训练，自监督的方式，这篇文章还是很有意思的，它实际上是之前nlp上bert那一套在语音识别领域的应用。

在网上爬了70w带标号的语音的数据，然后直接训练了一个transformer的模型。没有标号的语音数据，使用对比学习预训练的模型，这些预训练好的语音的编码器，能够学习到比较高质量的特征表示，但是没有一个很好的编码器，如果想用的话还是得找一个标号数据，微调，其实就是训练一个decoder，但是whisper觉得微调是比较复杂的。这个思路和之前的bert是一样的，bert是双向的，用的transformer中的encoder模块，本质上一个预训练的大语言模型，训练时使用的完形填空或者预测下一个句子这种预训练的任务，这个gpt是有不同的，gpt是生成式的，用的transformer中的deocder模块，它本身就是一个解码器，不需要bert那样后续还需要微调一个解码器。但是为什么不在语音识别上使用gpt这种模式呢？因为语音信号是一个声波，放到gpt后只能预测下一秒钟，但是预测声波本身和预测单词是不同的，中间还需要一个将语音信号转成文本信号，因此这一步还是需要标号数据，也就是说即便是无监督任务，后续还是要一个微调。不过当然也可以一步到位，但是在特定数据上微调总是不够鲁棒的，最好还是zero shot。

作者做了一个弱监督数据集，虽然是监督的，但是数据质量相对是较差的，有68w小时，用了一个大型的transformer，当模型足够大时，对多语言多任务是有益的。这种方式不需要自监督方式，以往自监督数据往往在100w小时以上，然后使用4w有监督来微调，现在whisper直接将4w标号数据扩展成68w弱监督数据，效果非常好。这个目前来看和sam是如何的相似，图像领域也可以这么做。

whisper完全依赖sequence to sequence方式，预测原始文本。不过对网上爬取的数据还是要做一些预处理，首先如果爬取的数据中有asr机器生成的语音文本对，这个要删除掉。将所有的数据切成30s一个区间做训练数据。

whisper使用带有编码器和解码器的transformer，数据输入是对音频采样到16000Hz，然后把它变成一个80通道的log scale mel spectrogram，16000Hz就是每个时间里16000个点，每个时间点会有一个数值，做一个傅里叶变形，将时序变到频谱上，log scale对频谱维度做一下log变成db，mel是因为每个人对不同频率的响应是不一样的，一般对低频响应好一点，对高频响应差一点，mel就是频谱图，但是把高频的分辨率做低一点，低频分辨率做高一点。也就是说一个时序的信号变成了2d的频率图，每个时间点抽一个特征，80维表示每个时间点，抽了一个80维的特征，每一次向前滑动10ms，切出来是30s一段，那么一个30s的语音信号最后变成一个3000个数据点，每一维是80维度。

网络模型结构：

模型参数：

多语言结果：

中文效果一般，左图是单词错误率，横轴是训练数据，zh中文数据多但是错误率还是挺高的，右图是翻译，翻译都是翻英文。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

whisper:robust speech recognition via large-sacle weak supervision 的相关文章

【需求响应】改进连续时间控制方法用于分散式需求响应的恒温负荷研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码及文章
2024年华数杯国际赛B题：光伏发电功率思路模型代码解析

2024年华数杯国际赛B题光伏发电功率 Photovoltaic Power 一问题描述中国的电力构成包括传统能源发电如煤油和天然气可再生能源发电如水电风能太阳能和核能以及其他形式的电力这些发电模式在满足中国对电力的巨
比尔盖茨与萨姆.奥尔特曼的对话及感想

谈话内容比尔盖茨嘿萨姆萨姆奥尔特曼嘿比尔比尔盖茨你好吗萨姆奥尔特曼哦天哪这真的太疯狂了我还好这是一个非常激动人心的时期比尔盖茨团队情况怎么样萨姆奥尔特曼我想你知道很多人都注意到了这样一个事实
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

AI 工具合辑盘点（八）持续更新之 AI 面部生成工具和AI 角色生成工具

一 AI 面部生成工具需要一张真实人物的肖像画来用于你的营销材料正在寻找具有特定面部特征的模特但你的预算有限正在创建你的买家人物但不想从互联网上窃取图片如果是这样也许AI面部生成器可以作为解决方案它们利用先进的图像处理技术
springboot 项目 docker 启动镜像读不到application配置

Dockerfile FROM openjdk 17 RUN cd RUN mkdir p config 删除旧jar包 RUN rm rf springboot3 jar 重新复制jar包 ARG JAR FILE ADD target
Maven问题：To see the full stack trace of the errors, re-run Maven with the -e switch.

报错如下 ERROR gt Help 1 ERROR ERROR To see the full stack trace of the errors re run Maven with the e switch ERROR Re run M
C语言之详解静态变量static

在C语言中static是用来修饰变量和函数的这篇文章详细介绍了static主要作用文章中有详细的代码实例需要的朋友可以参考阅读在C语言中 static是用来修饰变量和函数的 static主要作用为 1 修饰局部变量静态局部变量 2
在idea中快速构建方法的说明注释，带有参数信息

在方法上面输入然后按Ctrl enter即可下面都是自动生成的内容 param request param response param handler return throws Exception Override public b
git命令超实用总结（23条超实用命令）

本文总结了常见的23个git使用场景的处理方法足够应对日常学习工作中对git的使用文章目录 1 添加SSH验证免登陆 2 将本地项目上传GitHub 2 1 如果是新项目本地还没有代码 2 2 如果想直接使用远程的代码 2 3 如果是
Android studio 3.5 debug 包不能安装

debug模式下编译出的apk无法安装可在根目录gradle properties中配置 android injected testOnly false
HTTP 隧道

本文摘自书籍 HTTP 权威指南此系列文章对应 github地址隧道可以通过 HTTP 应用程序访问使用非 HTTP 协议的应用程序 Web 隧道允许用户通过 HTTP 连接发送非 HTTP 流量这样就可以在 HTTP 上捎带其他协
2023牛客暑期多校训练营7 I We Love Strings

https ac nowcoder com acm contest 57361 I 分治容斥原理 include
[es6] 模板字符串内添加if判断

我之前一只知道模板字符串中可以用三目运算符做判断但今天有个需求要在模板字符串中添加if条件语句于是百度了一下在此记录一下直接看代码吧 var html div class p 1 p p 2 p p 3 p p function i
Mybatis返回自增主键id的值，2种方式

1 方式一不建议使用有BUG的方式通过useGeneratedKeys true keyProperty id 来设置返回新的id值这里有个问题就是通过这种方式插入的值经常会返回1 原因是因为他这里的意思是返回当前影响的行数不
lc marathon 7.16

文章目录 138 复制带随机指针的链表 https leetcode cn problems copy list with random pointer 剑指 Offer II 092 翻转字符 https leetcode cn prob
c++ 自定义时间格式

1 自定义时间格式我们可以使用strftime 函数将时间格式化为我们想要的格式它的原型如下 size t strftime char strDest size t maxsize const char format const str
关于HR系统升级为集团版的设计总结

刚刚完了公司HR系统的升级系统实现了从单一公司使用到多公司使用的转变在升级的一个多月的时间内虽然很苦但感觉自已在系统架构上受益非浅具体有以下感悟一 MVC还是很重要系统框架是五年前用delphi设计的采用的基类加扩展类的模式
fluent p1模型_Fluent辐射传热模型理论以及相关设置(一)

原标题 Fluent辐射传热模型理论以及相关设置一本文来源于网络原作者 Libo CHen 感谢作者的辛苦整理和撰写 1概述在传热的仿真中有时候会不可避免的涉及到辐射传热而我们对Fluent中辐射模型的了解甚少很难得到可靠的计
关于Unity-Web的Development build。

Unity转手游之后是否该勾选development Build 首先看一看官方文档的解释 Development Build When you check the Development Build checkbox Unity gene
【杂记】EMC、EMI、EMS、TVS、ESD概念学习总结

注杂记系列为日常网搜资料的简单堆砌而积累成之如有错误恭谢指出标识为原创其实不完全是只是多引用再整理大都引自网络侵删 EMC EMC Electromagnetic Compatibility 属于概念为电磁兼容性电磁兼
java 中unsigned类型的转换

java 中unsigned类型的转换
oh-my-zsh安装与常用插件

zsh 介绍工欲善其事必先利其器 zsh也是一种 shell 兼容最常用的 bash 这种 shell 的命令和操作 bash 虽然很标准但是自己日常使用方便更重要 oh my zsh 提供了丰富的插件和提安装先使用命令查看系统支
whisper:robust speech recognition via large-sacle weak supervision

OpenAI Whisper 精读论文精读 45 哔哩哔哩 bilibili更多论文 https github com mli paper reading 视频播放量 68331 弹幕量 327 点赞数 2332 投硬币枚数 1192 收

whisper:robust speech recognition via large-sacle weak supervision

whisper:robust speech recognition via large-sacle weak supervision 的相关文章

随机推荐

热门标签