使用波束搜索的端到端神经网络系统中的上下文语音识别(论文翻译)

2023-11-04

摘要

最近的研究表明,端到端(E2E)语音识别体系结构(如Listen-attent和Spell,LAS)可以在LVCSR任务中获得最先进的质量结果。这种体系结构的一个优点是它不需要单独训练的发音模型、语言模型和声学模型。但是,这个属性也引入了一个缺点:不可能将语言模型的贡献与整个系统分开进行调整。因此,将动态的上下文信息(如附近的餐馆或即将发生的事件)纳入识别需要一种不同于传统系统的方法。

我们介绍了一种技术,通过在波束搜索的每一步调整神经网络的输出似然度来调整推理过程以利用上下文信号。我们将所提出的方法应用于一个LAS E2E模型,并在一个包含人工和真实上下文信息的语音搜索任务上进行了实验,证明了该方法的有效性。在最佳的环境下,我们的系统将功耗从9.2%降低到3.8%。结果表明,该方法能有效地将上下文信息融入到E2E系统的预测中。

1、介绍

上下文自动语音识别(ASR)系统使用实时上下文信号动态调整预先训练的语音识别系统中的优先级[1]。上下文信号可以包括:用户的位置、正在使用的设备或个性化信息,例如用户最喜爱的歌曲和日历事件(图1)。包含这些信息可以提高识别结果[2]。我们的上下文ASR系统以前是建立在一个传统的体系结构上的,在本文中,我们提出了一个设计方案来对E2E体系结构进行类似的改进。

传统的ASR系统将识别问题分解为多个子问题,这些子问题被独立地建模和训练,然后在识别过程中联合执行。例如,声学模型将原始声学特征与语音单元(如上下文相关音素)相关联,发音模型将这些声学单元映射到单词,语言模型将概率分配到单词序列。之后,文本规范化组件可以将单词序列的口语形式转换为书面形式(例如,一个pm vs.1:00 pm或13:00)。

模块的这种相对独立性具有可调整性的优点。传统的上下文系统依赖于能够检查和修改模块化系统的各个组件以实现功能。例如,一个独立的语言模型可以支持类的动态填充[3],而一个独立的发音模型允许动态注入发音[4]。这样做的一个缺点是,在一个建模片段中消耗的信息可能在其他地方有用;声音信号可以通知语言模型或文本规范化器。

E2E系统指的是一个系统,其中单个部件学习将原始声学数据与书面语言相关联,而不需要独立训练的部件。在过去几年中,使用神经网络实现的E2E(也称为序列到序列)模型与传统系统具有竞争力[5]。在这些E2E模型中,有连接主义的时间分类方法,如RNN-T[6]或基于注意的方法,如Listen-Attendant-Spell[7]。

在这项工作中,我们将重点放在将动态重排序[8]引入E2E系统的LAS实现中。我们在E2E范例中没有相同数量的可调整性,但是系统的波束搜索部分提供了一个实现重定标的地方。波束搜索保持一组部分序列假设,并决定将哪些先前的输出反馈到LAS解码器以继续生成输出[7]。以前的工作已经探索了将语言模型融合到E2E系统中(如冷聚变和深聚变[9])。最近,shallow fusion演示了使用可交换的LM,每个任务都可以更改它[10]。这项工作是相关的,但不同的是,我们没有融合到系统中的一个完整的LM,而是我们调整网络输出与一个部分LM只包含上下文n-gram。

我们创建了一个系统,它将上下文短语作为一个话语,并通过一定的数量来增加它们的可能性。这些短语被分解成n-gram并编译成一个加权有限状态传感器(WFST),它允许快速有效的搜索[8]。在波束搜索过程中,WFST与LAS网络的输出一起被遍历,当发现匹配时,执行上下文重排序。

论文的其余部分组织如下。第2节提供了上下文语音识别的背景知识。第3节概述了系统设计。第4节描述了LAS的实现和上下文建模,第5节给出了我们的实验结果,第6节给出了结论。

2、上下文语音识别

在许多语音识别应用中,动态调整是必不可少的。在语音搜索任务中,我们之前已经展示了通过引入n-grams权重调整个人上下文和地理信息[2]中的突出n-grams,以及使用上下文[11]改进了联系人姓名识别的质量改进。像谷歌助手这样的产品将上下文用于所有类型的个人实体(例如歌曲、艺术家)以及许多其他应用程序。

支持该功能的是上下文模块,它负责从数据库获取数据、识别请求和其他在线服务。所有这些上下文源必须快速响应,因为这个过程发生在用户开始说话时。收集上下文后,上下文模块将它们转换为wfst,然后将其输入识别系统。在传统的系统中,这些可以以几种方式使用。在本文中,我们只关心on-the-fly rescoring.

2.1on-the-fly rescoring

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用波束搜索的端到端神经网络系统中的上下文语音识别(论文翻译) 的相关文章

  • Unity3D集成腾讯语音GVoice SDK

    简述 我们项目中用到了实时语音功能 在最初语音 SDK 技术选型的时候测试过融云 声网和腾讯的 GVoice 融云和声网我都在我们项目中使用过 但是效果都不如王者荣耀游戏中的实时语音效果 这两天好好研究了一下腾讯的 GVoice 终于成功集
  • 语音交互有哪些优势与劣势?

    转载自公众号 谈人工智能 转载请联系授权 语音交互是指人与人 人与设备之间 通过自然语音进行信息传递的过程 人与人之间通过语音来传递信息 交流感情等等 其实就是一种最基本的人与人之间的语音交互 为什么VUI这个概念 Voice User I
  • Kaldi-MFCC模块源码主流程分析

    那么趁着这个机会 研究一下kaldi源码中MFCC部分的内容 不说废话 我们从 compute mfcc feats cc开始讲解 这里是个main函数 需要携带参数 具体使用样例如下 1 compute mfcc feats 其实看到这里
  • 语音识别芯片LD3320介绍再续

    语音识别芯片LD3320驱动程序 1 芯片复位 复位就是对LD3320芯片的第47腿 RSTB 发送低电平 然后需要对片选CS做一次拉低 拉 高的操作 以激活内部DSP 按照以下顺序 void LD reset RSTB 1 delay 1
  • 机器学习算法(二十三):DTW(Dynamic Time Warping,动态时间调整)

    目录 1 DTW 动态时间调整 2 算法的实现 3 例子 4 python实现 5 DTW的加速算法FastDTW 5 1 标准DTW算法 5 2 DTW常用加速手段 5 3 FastDTW 1 DTW 动态时间调整 动态时间调整算法是大多
  • 清华大学LightGrad-TTS,且流式实现

    论文链接 https arxiv org abs 2308 16569 代码地址 https github com thuhcsi LightGrad 数据支持 针对BZNSYP和LJSpeech提供训练脚本 针对Grad TTS提出两个问
  • lattice

    lattice 在实际的语音识别系统中 最优路径不一定与实际字序列匹配 我们一般希望能够得到得分最靠前的多条候选路径 即N best 为了紧凑地保存候选路径 我们一般采用lattice 词图 来保存识别的候选序列 lattice本质上是一个
  • 【AI外呼+RPA自动加微】,解锁企微新能力

    促销季临近 各类线上促销活动又拉开帷幕 多数商家意识到 在铺广告 做推广获客的同时 还可以利用好现有的用户数据 与客户建立更紧密的联系 激活客户进行二次转化 为了更加便于激活 运营客户 我们可以将客户引入另一个流量载体 企微私域 在使用平台
  • 论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用

    近日 实验室三篇论文被语音研究顶级期刊IEEE ACM Transactions on Audio Speech and Language Processing TASLP 录用 一篇论文被重要期刊IEEE Signal Processin
  • 华为太长脸了,扔出“3张王炸”!再次颠覆互联网行业

    8月29日 在没有任何预告 任何发布会的情况下 华为扔出一张 王炸 华为新手机Mate60pro开售 9月8日 华为废话不多说 再次扔出 王炸 牌 Mate60 Pro MateX5开启预订 一经开抢 卖到断货 就在刚刚 华为AITO问界新
  • 【C#实现文字转语音功能】

    本文实例为大家分享了C 实现文字转语音的具体代码 供大家参考 具体内容如下 客户提出要求 将文字内容转为语音 因为内网环境 没办法采用联网 在线这种方式 灵机一动 能否写一个简单的例子呢 搜索相关资料还真行 话不多说 有图有真相 关键是 c
  • 微软晓晓朗读录音工具windows-文字转语音

    微软Edge的 大声朗读 功能大家都用过吧 这个功能非常好用 但是美中不足的是它不能保存语音文件 所以就有大神提取了edge的功能和接口作了这个软件 使用很简单 直接输入文字 然后点击 朗读 软件就会识别文字 然后自动播放语音 在下方的设置
  • 隐马尔可夫模型(HMM)的分类

    1 遍历型 ergodic model 即每个状态都可以由任意一个状态演变而来 aij gt 0 for all i j 如图 2 left right type of HMM 每个状态只能由下标值小于当前值得状态以及其本身转移而来 即从左
  • python中的并行处理(多线程)几种方式(Pool, Parallel, threading)

    1 Pool from multiprocessing import Pool import os def worker arg print begin s str arg if name main po Pool 10 定义进程池 最大进
  • windows下写入文本换行符\r\n修改为linux下换行符\n

    最近一段时间经常使用python向文本写入数据 但是windows下换行符默认为 r n 而linux下换行符为 n 写入的文本要在linux下调用 这就很坑人了 代码前行的路上怎么能被小小石头绊倒 于是乎搜索了一通 发现这个事情仅需要几行
  • 《Graph Neural Networks Foundations,Frontiers and Applications》第一部分第一章第1.2.2节翻译和解读

    书名 Graph Neural Networks Foundations Frontiers and Applications 图神经网络的基础 前沿和应用 出版社 Springer Berlin Heidelberg 作者 Lingfei
  • 如何使用python调用电脑麦克录音

    import wave import pyaudio 定义数据流块 CHUNK 1024 FORMAT pyaudio paInt16 CHANNELS 2 RATE 44100 录音时间 RECORD SECONDS 5 要写入的文件名
  • 音频处理工具SOX详解

    这里写自定义目录标题 前言 一 简介 二 基本使用 三 音频效果 前言 SoX 即 Sound eXchange 是一个跨平台 Windows Linux MacOS 等 的命令行实用程序 可以将各种格式的音频文件转换为需要的其他格式 So
  • 利用百度AI 合成语音2

    文字合成语音 coding UTF 8 from aip import AipSpeech from playsound import playsound 你的 APPID AK SK APP ID 20232679 API KEY bZc
  • 个性化语音生成:五种基于Python的方法

    引言 随着人工智能技术的不断发展 语音生成已经成为一个热门的研究领域 个性化语音生成技术可以根据用户的需求和特点 生成具有高度相似度的语音 广泛应用于语音助手 虚拟人物 语音合成等领域 本文将介绍五种基于Python的个性化语音生成方法 包

随机推荐

  • React笔记(八)Redux

    一 安装和配置 React 官方并没有提供对应的状态机插件 因此 我们需要下载第三方的状态机插件 Redux 1 下载Redux 在终端中定位到项目根目录 然后执行以下命令下载 Redux npm i redux 2 创建配置文件 在 Re
  • js中包含中文注释引起的错误

    在一个js文件中有如下代码块 显示某块function MissBlock theid 在 aspx中引用该文件 执行页面时提示脚本错误 很长时间调试之后 发现与函数前的中文注释有关 把注释去掉或改成英文就OK了估计跟页面的编码设置有关 特
  • Linux内核-漫画

    学习的过程中发现了这个有意思的漫画 于是简单翻译了一下 原图 翻译
  • Springboot中使用策略模式+工厂模式

    策略模式和工厂模式相信大家都比较熟悉 但是大家有没有在springboot中实现策略和工厂模式 具体策略模式和工厂模式的UML我就不给出来了 使用这个这两个模式主要是防止程序中出现大量的IF ELSE IF ELSE 接下来咱们直接实现 项
  • es文档操作

    1 kibana操作 1 1新增文档 语法 POST 索引库名 doc 文档id 字段1 值1 字段2 值2 字段3 子属性1 值3 子属性2 值4 示例 POST heima doc 1 info 黑马程序员Java讲师 email zy
  • 嘴说手画Spark的内存模型

    一 内存模型 Spark的内存模型如下图所示 Reserved Memory 固定为 300MB 不受开发者控制 是启动Spark框架本身所需要的内存空间 UserMemory 是用户空间 即用户定义的数据 通常是用户在代码中定义的变量 可
  • iMazing高效便捷的数据转移功能

    近几年来iMazing设备管理工具被广大苹果用户所青睐 相比苹果的另一个设备管理工具iTunes iMazing更具有操作简单 易掌握的优势 iMazing支持将iOS手机数据备份到电脑 支持将数据恢复到苹果设备中 也支持将手机数据转移到其
  • python 注意事项(—)

    1 优先级高于 1 Since has higher precedence than 3 2 will be interpreted as 3 2 and thus result in 9 To avoid this and get 9 y
  • ChatGPT的Fine-tuning是什么?

    fine tuning基本概念 Fine tuning 微调 是指在预训练过的模型基础上 使用特定任务的数据进行进一步的训练 以使模型更好地适应该任务 在ChatGPT的情况下 Fine tuning是指在预训练的语言模型上使用对话数据进行
  • dyld: Library not loaded:

    dyld Library not loaded 问题 在使用阿里的开源库LazyScrollView的时候出现的这个问题 本地Xcode11 4 1 真机调试 dyld Library not loaded rpath LazyScroll
  • centos查看系统名称、架信息

    centos查看系统名称 架构 hostnamectl
  • 将一个数组中的元素向后移动k位

    设计一个算法 将数组A 0 n 1 中的元素循环右移K位 假设原数组序列为 a0 a0 an 2 an 1 移动后的序列为 an k an k 1 a0 a1 an k ab k 1 要求只用一个元素大小的附加存储 元素移动或变换次数与n线
  • Python 利用Turtle模块绘制国际象棋棋盘

    使用Turtle模块绘制国际象棋棋盘 使用语言 Python 3 7 3 思路 国际象棋是8 8的一个个小正方形 或者说是9横9纵的线组成 作画的时候 先做9横9纵的线 再填上灰色的小正方形 即可完成 本次画的棋盘边长为160 160 1
  • Hive中LIKE和RLIKE的区别

    1 LIKE和RLIKE的使用示例 SELECT name LIKE Alice FROM table1 表示选择name列内以ALICE作为结尾的数据 相同的功能使用RLIKE实现如下 SELECT name RLIKE Alice FR
  • docker commit 命令

    简介 在软件开发中经常需要保存软件状态 比如git 中每次提交的代码都会有版本号 可以根据提交的版本号进行恢复 docker中通过docker commit 命令提供了一个保存镜像状态的方式 使用 比如有一镜像 adaptor 1 通过do
  • cmd怎么另起一行_西语毕业论文怎么写?西语资料去哪儿找?

    西语毕业论文怎么写 西语资料去哪儿找 1 论文结构 西语 学位论文包括前置 主体 附录等三个部分 以下细节无固定先后之分 视具体学校要求而定 1前置 1 封面 由论文 中 西 文题目 姓名 学号 专业 班级 指 导老师姓名和职称 时间组成
  • 数据结构系列——栈 stack

    本期主题 数据结构之 栈 往期链接 数据结构系列 先进先出队列queue 目录 1 栈定义 2 使用动态数组实现栈 3 有趣的例子 1 栈定义 栈是什么 定义 一个后进先出的数据结构 LIFO last in first out 插入操作称
  • 美国地质调查局SRTM--30米DEM数据

    美国地质调查局 USGS SRTM DEM数据 0 简介 1 数据下载 1 1网址 https lpdaac usgs gov https lpdaac usgs gov 1 2搜索 SRTM 以列表展示 选择SRTMGL1 003 1 3
  • 转--Approximate Inference(近似推断,变分推断,KL散度,平均场, Mean Field )

    题目 PRML读书会第十章 Approximate Inference 近似推断 变分推断 KL散度 平均场 Mean Field 转自 http blog csdn net nietzsche2015 article details 43
  • 使用波束搜索的端到端神经网络系统中的上下文语音识别(论文翻译)

    摘要 最近的研究表明 端到端 E2E 语音识别体系结构 如Listen attent和Spell LAS 可以在LVCSR任务中获得最先进的质量结果 这种体系结构的一个优点是它不需要单独训练的发音模型 语言模型和声学模型 但是 这个属性也引