whisper:robust speech recognition via large-sacle weak supervision

2023-11-07

OpenAI Whisper 精读【论文精读·45】_哔哩哔哩_bilibili更多论文:https://github.com/mli/paper-reading, 视频播放量 68331、弹幕量 327、点赞数 2332、投硬币枚数 1192、收藏人数 983、转发人数 394, 视频作者 跟李沐学AI, 作者简介 ,相关视频:自动识别讲座、访谈录音 ——Python开源whisper语音识别,ChatGPT原理剖析 李宏毅,(强推)李宏毅2021/2022春机器学习课程,Transformer论文逐段精读【论文精读】,博一研究生 求偶视频,在线求偶|26岁985副教授,本科生如何发表一作Nature子刊,在讲 OpenAI Whisper 前先做了一个剪视频小工具【论文精读·44】,算法领域的“大力出奇迹”:ChatGPT!李宏毅教授重磅解读ChatGPT的底层逻辑!感兴趣的同学赶紧收藏学习了!,46 语义分割和数据集【动手学深度学习v2】https://www.bilibili.com/video/BV1VG4y1t74x/?spm_id_from=333.999.0.0&vd_source=4aed82e35f26bb600bc5b46e65e25c22

语音模型的预训练,自监督的方式,这篇文章还是很有意思的,它实际上是之前nlp上bert那一套在语音识别领域的应用。

        在网上爬了70w带标号的语音的数据,然后直接训练了一个transformer的模型。没有标号的语音数据,使用对比学习预训练的模型,这些预训练好的语音的编码器,能够学习到比较高质量的特征表示,但是没有一个很好的编码器,如果想用的话还是得找一个标号数据,微调,其实就是训练一个decoder,但是whisper觉得微调是比较复杂的。这个思路和之前的bert是一样的,bert是双向的,用的transformer中的encoder模块,本质上一个预训练的大语言模型,训练时使用的完形填空或者预测下一个句子这种预训练的任务,这个gpt是有不同的,gpt是生成式的,用的transformer中的deocder模块,它本身就是一个解码器,不需要bert那样后续还需要微调一个解码器。但是为什么不在语音识别上使用gpt这种模式呢?因为语音信号是一个声波,放到gpt后只能预测下一秒钟,但是预测声波本身和预测单词是不同的,中间还需要一个将语音信号转成文本信号,因此这一步还是需要标号数据,也就是说即便是无监督任务,后续还是要一个微调。不过当然也可以一步到位,但是在特定数据上微调总是不够鲁棒的,最好还是zero shot。

        作者做了一个弱监督数据集,虽然是监督的,但是数据质量相对是较差的,有68w小时,用了一个大型的transformer,当模型足够大时,对多语言多任务是有益的。这种方式不需要自监督方式,以往自监督数据往往在100w小时以上,然后使用4w有监督来微调,现在whisper直接将4w标号数据扩展成68w弱监督数据,效果非常好。这个目前来看和sam是如何的相似,图像领域也可以这么做。

        whisper完全依赖sequence to sequence方式,预测原始文本。不过对网上爬取的数据还是要做一些预处理,首先如果爬取的数据中有asr机器生成的语音文本对,这个要删除掉。将所有的数据切成30s一个区间做训练数据。

        whisper使用带有编码器和解码器的transformer,数据输入是对音频采样到16000Hz,然后把它变成一个80通道的log scale mel spectrogram,16000Hz就是每个时间里16000个点,每个时间点会有一个数值,做一个傅里叶变形,将时序变到频谱上,log scale对频谱维度做一下log变成db,mel是因为每个人对不同频率的响应是不一样的,一般对低频响应好一点,对高频响应差一点,mel就是频谱图,但是把高频的分辨率做低一点,低频分辨率做高一点。也就是说一个时序的信号变成了2d的频率图,每个时间点抽一个特征,80维表示每个时间点,抽了一个80维的特征,每一次向前滑动10ms,切出来是30s一段,那么一个30s的语音信号最后变成一个3000个数据点,每一维是80维度。

网络模型结构:

模型参数:

 多语言结果:

中文效果一般,左图是单词错误率,横轴是训练数据,zh中文数据多但是错误率还是挺高的,右图是翻译,翻译都是翻英文。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

whisper:robust speech recognition via large-sacle weak supervision 的相关文章

随机推荐

  • AI 工具合辑盘点(八)持续更新 之 AI 面部生成工具和AI 角色生成工具

    一 AI 面部生成工具 需要一张真实人物的肖像画来用于你的营销材料 正在寻找具有特定面部特征的模特 但你的预算有限 正在创建你的买家人物 但不想从互联网上窃取图片 如果是这样 也许AI面部生成器可以作为解决方案 它们利用先进的图像处理技术
  • springboot 项目 docker 启动镜像 读不到application配置

    Dockerfile FROM openjdk 17 RUN cd RUN mkdir p config 删除旧jar包 RUN rm rf springboot3 jar 重新复制jar包 ARG JAR FILE ADD target
  • Maven问题:To see the full stack trace of the errors, re-run Maven with the -e switch.

    报错如下 ERROR gt Help 1 ERROR ERROR To see the full stack trace of the errors re run Maven with the e switch ERROR Re run M
  • C语言之详解静态变量static

    在C语言中static是用来修饰变量和函数的 这篇文章详细介绍了static主要作用 文章中有详细的代码实例 需要的朋友可以参考阅读 在C语言中 static是用来修饰变量和函数的 static主要作用为 1 修饰局部变量 静态局部变量 2
  • 在idea中快速构建方法的说明注释,带有参数信息

    在方法上面输入 然后按Ctrl enter即可 下面都是自动生成的内容 param request param response param handler return throws Exception Override public b
  • git命令超实用总结(23条超实用命令)

    本文总结了常见的23个git使用场景的处理方法 足够应对日常学习工作中对git的使用 文章目录 1 添加SSH验证免登陆 2 将本地项目上传GitHub 2 1 如果是新项目 本地还没有代码 2 2 如果想直接使用远程的代码 2 3 如果是
  • Android studio 3.5 debug 包不能安装

    debug模式下编译出的apk无法安装 可在根目录gradle properties中配置 android injected testOnly false
  • HTTP 隧道

    本文摘自书籍 HTTP 权威指南 此系列文章对应 github地址 隧道 可以通过 HTTP 应用程序访问使用非 HTTP 协议的应用程序 Web 隧道允许用户通过 HTTP 连接发送非 HTTP 流量 这样就可以在 HTTP 上捎带其他协
  • 2023牛客暑期多校训练营7 I We Love Strings

    https ac nowcoder com acm contest 57361 I 分治 容斥原理 include
  • [es6] 模板字符串内添加if判断

    我之前一只知道模板字符串中可以用三目运算符做判断 但今天有个需求要在模板字符串中添加if条件语句 于是百度了一下 在此记录一下 直接看代码吧 var html div class p 1 p p 2 p p 3 p p function i
  • Mybatis返回自增主键id的值,2种方式

    1 方式一 不建议使用 有BUG的方式 通过useGeneratedKeys true keyProperty id 来设置返回新的id值 这里有个问题就是 通过这种方式插入的值 经常会返回1 原因是因为他这里的意思是返回当前影响的行数 不
  • lc marathon 7.16

    文章目录 138 复制带随机指针的链表 https leetcode cn problems copy list with random pointer 剑指 Offer II 092 翻转字符 https leetcode cn prob
  • c++ 自定义时间格式

    1 自定义时间格式 我们可以使用strftime 函数将时间格式化为我们想要的格式 它的原型如下 size t strftime char strDest size t maxsize const char format const str
  • 关于HR系统升级为集团版的设计总结

    刚刚完了公司HR系统的升级 系统实现了从单一公司使用到多公司使用的转变 在升级的一个多月的时间内 虽然很苦 但感觉自已在系统架构上受益非浅 具体有以下感悟 一 MVC还是很重要 系统框架是五年前用delphi设计的 采用的基类加扩展类的模式
  • fluent p1模型_Fluent辐射传热模型理论以及相关设置(一)

    原标题 Fluent辐射传热模型理论以及相关设置 一 本文来源于网络 原作者 Libo CHen 感谢作者的辛苦整理和撰写 1概述 在传热的仿真中 有时候会不可避免的涉及到辐射传热 而我们对Fluent中辐射模型的了解甚少 很难得到可靠的计
  • 关于Unity-Web的Development build。

    Unity转手游之后是否该勾选development Build 首先看一看官方文档的解释 Development Build When you check the Development Build checkbox Unity gene
  • 【杂记】EMC、EMI、EMS、TVS、ESD概念学习总结

    注 杂记 系列为日常网搜资料的简单堆砌而积累成之 如有错误恭谢指出 标识为 原创 其实不完全是 只是多引用再整理 大都引自网络 侵删 EMC EMC Electromagnetic Compatibility 属于概念 为电磁兼容性 电磁兼
  • java 中unsigned类型的转换

    java 中unsigned类型的转换
  • oh-my-zsh安装与常用插件

    zsh 介绍 工欲善其事 必先利其器 zsh也是一种 shell 兼容最常用的 bash 这种 shell 的命令和操作 bash 虽然很标准 但是自己日常使用方便更重要 oh my zsh 提供了丰富的插件和提 安装 先使用命令查看系统支
  • whisper:robust speech recognition via large-sacle weak supervision

    OpenAI Whisper 精读 论文精读 45 哔哩哔哩 bilibili更多论文 https github com mli paper reading 视频播放量 68331 弹幕量 327 点赞数 2332 投硬币枚数 1192 收