语音识别-3

2023-11-18

https://zhuanlan.zhihu.com/p/33464788

基于CTC的语音识别基础与实现

首先明确语音识别的任务是怎样的。输入input是音频wav文件,保存的一般是经过抽样量化编码之后数字信号,也就是每个样点的值,即我们经常看到的波形序列(图1的cat的波形)。输出是文字序列,代表这段音频的内容。很显然,按照现在对深度学习任务的划分,这是一个Sequence-to-Sequence的问题。也可以理解为是一个序列标注的问题。该问题与机器翻译,连续手写数字体识别类似,可以划分到一类。
但是语音识别的问题远没有这么简单。
想象一下如果人在听一句话的时候,如果这句话具有很强的领域性,在没有相关领域的知识情况下,可能很难得到这句话正确的内容。比如某个词你没有学过,你可能能复述发音,但是是无法书写出来并且理解的。
所以只有wav文件的信息是不够的,需要语言学的先验知识,所以语言模型(Language Model)在语音识别的过程中是必不可少的。
而对wav作为输入得到的模型叫做声学模型(Acoustic Model)。另外在传统的语音识别过程中,声学模型的输出单元一般为音素或者是音素的状态,而语言模型一般是词级别的语言模型,两者的联合解码(也就是一般的测试推断过程)时需要知道每个词(word)是由哪些音素(phoneme)组成的,也就是这个词是怎么发音的。所以中间需要一个发音词典,一般也被叫做音素模型(Phoneme Model)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

语音识别-3 的相关文章

随机推荐

  • 操作系统可以做服务器操作系统,可以做服务器操作系统

    可以做服务器操作系统 内容精选 换一换 Atlas 800 训练服务器 型号 9010 安装上架 服务器基础参数配置 安装操作系统等操作请参见 Atlas 800 训练服务器 用户指南 型号9010 Atlas 800 训练服务器 型号 9
  • 【windows11】python安装教程(超简易·免配置)

    废话不多说 直接上流程 一 下载python 认准官方网址 http www python org 由于是国外平台网站 网页加载可能有些慢 可以耐心等待 鼠标光标移至 Downloads 处 点击 All releases 若想体验最新版
  • Libvirt安装

    目录 建立在上一章的基础上 一 Libvirt安装与配置 1 修改 etc selinux config 文件 2 配置yum源为阿里源 3 清理yum源 4 重新生成新缓存 5 检查系统是否安装 libvirt qemu 6 检查kvm模
  • 【华为OD统一考试A卷

    华为OD统一考试A卷 B卷 新题库说明 2023年5月份 华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷 和OD统一考试 B卷 你收到的链接上面会标注A卷还是B卷 请注意 根据反馈 目前大部分收到的都是
  • Linux磁盘管理

    lsblk 使用lsblk命令可以以tree的形式展示所有设备的信息 lsblk命令的英文是 list block 即用于列出所有可用块设备的信息 而且还能显示他们之间的依赖关系 但是它不会列出RAM盘的信息 使用者权限 所有用户 语法格式
  • HCNP路由交换笔记

    路由基础 路由 在报文转发的过程中沿途的网络设备收到该报文后 会根据其携带的目的IP地址来判断如何转发这个报文 最终将报文从恰当的接口转发出去 当一台路由器收到一个IP报文后 会在自己的路由器中执行路由查询 寻找匹配报文的目的IP地址的路由
  • 如何更改vue项目中的小图标

    1 先将icon图标放入static文件夹中 2 然后在index html文件中引入 3 保存后刷新浏览器就可以显示图标了
  • 如何开启esxi主机的ssh远程连接

    环境 esxi主机 说明 esxi主机默认ssh是不开启的 需要人工手动启动 也可以设置同esxi主机一起开机启动 1 找到esxi主机 点击 配置 那里 再点击右边的属性 如图所示 2 在 服务属性 界面中 可以看到很多服务 找到 SSH
  • navicat mysql data transfer_Navicat 导出导入数据库的实现方法

    描述 把mysql数据库中的一个数据库导出 备份 或者传输给别人 导出 使用Navicat连接到mysql 然后选中你要导出的数据库 右键 选择转储SQL文件 命名为数据名 sql 保存到本地中即可 如下图 选择转储SQL文件 保存到本地
  • Python中configparser的使用

    1 configparser介绍 configparser是python自带的配置参数解析器 可以用于解析 ini文件中的配置参数 ini文件中由sections 节点 key value组成 2 ini文件配置说明 DEFAULT key
  • 华为OD机试 - 用户调度问题(Java)

    题目描述 在通信系统中 一个常见的问题是对用户进行不同策略的调度 会得到不同的系统消耗和性能 假设当前有n个待串行调度用户 每个用户可以使用A B C三种不同的调度策略 不同的策略会消耗不同的系统资源 请你根据如下规则进行用户调度 并返回总
  • 数字化时代-17:从中国历年五年规划后的GDP增长看中美大碰撞的必然

    前言 本文通过观察中国历年五年规划后的GDP增长与美国同期GDP的增长的关系 展示中美大碰撞的必然性 这是中国崛起路上必然要经过的一道坎 无法回避 能做的就是降低它的负面影响 我们先看一下日美大碰撞 在上图中 上个世纪80年代 日本经济飞速
  • 2003服务器iis网站在哪,【搭建网站】Windows2003系统iis搭建网站教程

    1 开始 管理工具 internet信息服务 iis 管理右键添加到桌面快捷方式 然后打开如图 2 右键点击网站 选择新建 网站 3 输入网址描述 并下一步 4 填写网址相关信息 网站ip地址 可以选择全部未分配也选择本机的ip地址 建议使
  • (已上岸)记一次Java后台实习面试问题——附答案

    2020年6月5日 某互联网公司的 Java开发实习生 技术面二面 面试官 自我介绍 项目提了一嘴 JDK 1 8 集合源码 TCP细节 HTTP和HTTPS redis数据结构和常用方法 消息队列基础 Spring SpringCloud
  • mybatis-plus代码生成器一键生成代码

    第一步 添加依赖
  • AI视频成工具D-ID介绍(AI数字人常用工具)

    Studio D id 一个AI视频成工具 用AI创作的数字人 输入人物关键词就可一键生成人物 上传要说的文本或音频则可以开口说话了 关于AI语音 有很多选项可供选择 目前 Studio D id支持多达66种语言 然后 您可以使用普通话
  • 【读点论文】ViTGAN: Training GANs with Vision Transformers 将视觉transformer和gan结合起来

    ViTGAN Training GANs with Vision Transformers Abstract 最近 Vision Transformers vits 在图像识别方面表现出了具有竞争力的性能 需要较少的视觉特定的归纳偏差 在本
  • ubuntu中USB摄像头gstreamer方式图像采集、显示、录像及回放功能设计——(1)

    文章目录 背景 一 USB摄像头图像格式 1 安装v4l2 ctl库 2 找到挂载节点 3 图像格式分析 二 Gstreamer 简介 三 Gstreamer 命令行 1 显示MJPG格式 1280 720 30fps视频 2 显示YUV格
  • Android studio 查找所有字符串

    查找程序中所有直接使用的硬编码字符串 String 全局查找 Ctrl H 输入 u4e00 u9fa5 并打钩Regular Expression 正则表达式
  • 语音识别-3

    https zhuanlan zhihu com p 33464788 基于CTC的语音识别基础与实现 首先明确语音识别的任务是怎样的 输入input是音频wav文件 保存的一般是经过抽样量化编码之后数字信号 也就是每个样点的值 即我们经常