使用波束搜索的端到端神经网络系统中的上下文语音识别（论文翻译）

2023-11-04

摘要

最近的研究表明，端到端（E2E）语音识别体系结构（如Listen-attent和Spell，LAS）可以在LVCSR任务中获得最先进的质量结果。这种体系结构的一个优点是它不需要单独训练的发音模型、语言模型和声学模型。但是，这个属性也引入了一个缺点：不可能将语言模型的贡献与整个系统分开进行调整。因此，将动态的上下文信息（如附近的餐馆或即将发生的事件）纳入识别需要一种不同于传统系统的方法。

我们介绍了一种技术，通过在波束搜索的每一步调整神经网络的输出似然度来调整推理过程以利用上下文信号。我们将所提出的方法应用于一个LAS E2E模型，并在一个包含人工和真实上下文信息的语音搜索任务上进行了实验，证明了该方法的有效性。在最佳的环境下，我们的系统将功耗从9.2%降低到3.8%。结果表明，该方法能有效地将上下文信息融入到E2E系统的预测中。

1、介绍

上下文自动语音识别（ASR）系统使用实时上下文信号动态调整预先训练的语音识别系统中的优先级[1]。上下文信号可以包括：用户的位置、正在使用的设备或个性化信息，例如用户最喜爱的歌曲和日历事件（图1）。包含这些信息可以提高识别结果[2]。我们的上下文ASR系统以前是建立在一个传统的体系结构上的，在本文中，我们提出了一个设计方案来对E2E体系结构进行类似的改进。

传统的ASR系统将识别问题分解为多个子问题，这些子问题被独立地建模和训练，然后在识别过程中联合执行。例如，声学模型将原始声学特征与语音单元（如上下文相关音素）相关联，发音模型将这些声学单元映射到单词，语言模型将概率分配到单词序列。之后，文本规范化组件可以将单词序列的口语形式转换为书面形式（例如，一个pm vs.1:00 pm或13:00）。

模块的这种相对独立性具有可调整性的优点。传统的上下文系统依赖于能够检查和修改模块化系统的各个组件以实现功能。例如，一个独立的语言模型可以支持类的动态填充[3]，而一个独立的发音模型允许动态注入发音[4]。这样做的一个缺点是，在一个建模片段中消耗的信息可能在其他地方有用；声音信号可以通知语言模型或文本规范化器。

E2E系统指的是一个系统，其中单个部件学习将原始声学数据与书面语言相关联，而不需要独立训练的部件。在过去几年中，使用神经网络实现的E2E（也称为序列到序列）模型与传统系统具有竞争力[5]。在这些E2E模型中，有连接主义的时间分类方法，如RNN-T[6]或基于注意的方法，如Listen-Attendant-Spell[7]。

在这项工作中，我们将重点放在将动态重排序[8]引入E2E系统的LAS实现中。我们在E2E范例中没有相同数量的可调整性，但是系统的波束搜索部分提供了一个实现重定标的地方。波束搜索保持一组部分序列假设，并决定将哪些先前的输出反馈到LAS解码器以继续生成输出[7]。以前的工作已经探索了将语言模型融合到E2E系统中（如冷聚变和深聚变[9]）。最近，shallow fusion演示了使用可交换的LM，每个任务都可以更改它[10]。这项工作是相关的，但不同的是，我们没有融合到系统中的一个完整的LM，而是我们调整网络输出与一个部分LM只包含上下文n-gram。

我们创建了一个系统，它将上下文短语作为一个话语，并通过一定的数量来增加它们的可能性。这些短语被分解成n-gram并编译成一个加权有限状态传感器（WFST），它允许快速有效的搜索[8]。在波束搜索过程中，WFST与LAS网络的输出一起被遍历，当发现匹配时，执行上下文重排序。

论文的其余部分组织如下。第2节提供了上下文语音识别的背景知识。第3节概述了系统设计。第4节描述了LAS的实现和上下文建模，第5节给出了我们的实验结果，第6节给出了结论。

2、上下文语音识别

在许多语音识别应用中，动态调整是必不可少的。在语音搜索任务中，我们之前已经展示了通过引入n-grams权重调整个人上下文和地理信息[2]中的突出n-grams，以及使用上下文[11]改进了联系人姓名识别的质量改进。像谷歌助手这样的产品将上下文用于所有类型的个人实体(例如歌曲、艺术家)以及许多其他应用程序。

支持该功能的是上下文模块，它负责从数据库获取数据、识别请求和其他在线服务。所有这些上下文源必须快速响应，因为这个过程发生在用户开始说话时。收集上下文后，上下文模块将它们转换为wfst，然后将其输入识别系统。在传统的系统中，这些可以以几种方式使用。在本文中，我们只关心on-the-fly rescoring.

2.1on-the-fly rescoring

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

论文翻译

语音识别