哈佛大学提出变分注意力:用VAE重建注意力机制

2023-05-16

注意力 (attention) 模型在神经网络中被广泛应用,不过注意力机制一般是决定性的而非随机变量。来自哈佛大学的研究人员提出了将注意力建模成隐变量,应用变分自编码器(Variational Auto-Encoder,VAE)和梯度策略来训练模型,在不使用 kl annealing 等训练技巧的情况下进行训练,目前在 IWSLT German-English 上取得了非常不错的成果。

1532592977905.png

  • 论文链接:https://arxiv.org/abs/1807.03756v1

  • 相关代码:https://github.com/harvardnlp/var-attn

一、背景

近年来很多论文将 VAE 应用到文本生成上,通过引入隐变量对不确定性进行建模。不过这会导致一个常见的 KL collapsing 问题,导致的现象就是直接训练的 VAE 得到的 KL 接近于 0,也就意味着近似后验和先验一样,隐变量被模型所忽略。

为了解决这个问题,在哈佛研究人员的工作中,注意力被建模成隐变量,由于解码器 (decoder) 和译码器 (encoder) 之间的主要信息传输通道是通过注意力来传输的,如果忽略了这个隐变量,就会因无法得到源文本的信息而得到很大的惩罚 (penalty)(这相比之前的许多工作中直接把隐变量加入到每个解码步骤不同,因为那样即使解码器忽略了隐变量,也可以达到很好的模型表现)。因此通过直接优化目标函数才能使得这个隐变量也不易被忽略,研究人员的实验完全验证了这一点。

值得注意的是,研究人员将注意力建模成隐变量并不是单纯为了应用 VAE 这个工具,而是因为研究人员认为将注意力建模成隐变量可以为解码器提供更干净 (clean) 的特征,从而在不增加模型参数的情况下提高模型的表现能力。

二、实验效果

1532592937499.png

与传统的注意力机制进行对比,传统的注意力机制仅能通过之前生成的单词确定当前即将生成单词的注意力(上图蓝色部分,仅能观测到已经预测的单词,由于存在多种翻译方式,因此会注意到和实际翻译的单词并不对应的位置),研究人员通过全部的源文本和目标文本去得到更准确的后验注意力(上图红色部分,通过全部信息得到后验,因此注意力和实际翻译应该与注意 (attend) 的源单词对应),并把更好的后验注意力提供给解码器,从而使解码器拿到更为干净的特征,藉此希望得到更好的模型。

三、核心思想

方法:假定 x 是源文本,y 是目标文本,z 是注意力,根据标准的 VAE 方法,研究人员引入推理网络 (inference network) q(z | x, y) 去近似后验,那么 ELBO 可以表达为(为了方便,只考虑目标文本只有一个单词的情况):

1532592937851.png

上面不等式的右侧是 ELBO,其中第一项是从 q(z | x, y) 中采样出注意力,使用采样出的注意力作为解码器的输入计算交叉熵损失,第二项是确保后验分布接近于先验分布(注意到此处的先验和一般的 VAE 不同,这里的先验是和模型一起学习的)。此时的 p(z | x) 和 q(z | x, y) 都是分类分布的,因此我们使用梯度策略去优化上面的目标函数。

由于此时的后验 q 能看到全部的 x 和 y,因此后验中采样的注意力可以比先验 p(z | x) 好,比如以下的例子:

1532592940584.png

这里需要把德语(纵向)翻译成英语(横向),红色代表先验(即只观测到 x 而不观测到 y 的 p(z | x)),蓝色代表后验(即观测到全部信息的 q(z | x, y))。注意到在第二个单词「actually」处,红色的先验试图注意到「nun」后面的逗号「,」,从而试图生成一个「well,」的翻译结果,然而实际的英语翻译中并没有逗号,而是直接是」well actually」,由于后验 q(z | x, y) 可以看到实际的翻译,因此蓝色的后验正确地注意到了「tatsachlich」上。注意到训练目标 ELBO 中我们从后验 q 中采样注意力给解码器,因此通过使用 VAE 的方法,解码器得到了更准确的注意力信号,从而提高了模型的表达能力。

四、展望

注意力方法是自然语言处理等领域普遍存在的工具,但它们很难用作隐变量模型。这项工作通过具有良好实验结果的变分注意力机制来探索潜在对齐的替代方法。研究人员同时也表示未来的工作将实验规模较大的任务和更复杂的模型,如多跳注意力模型 (multi-hop attention models),变压器模型 (transformer models) 和结构化模型 (structured models),以及利用这些潜在变量的可解释性作为一种方式去将先验知识进行结合。

理论 注意力模型 神经网络 哈佛大学 变分自编码器
1
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

哈佛大学提出变分注意力:用VAE重建注意力机制 的相关文章

  • 如何在 docker 容器中安装 ROS

    本文记录在 docker ubuntu 18 04 环境下安装 ROS xff08 机器人操作系统 xff09 的过程 目录 文章目录 目录安装 ROS参考文献 安装 ROS 安装步骤如下 xff1a span class token co
  • DOCKER个人遇见小问题

    1 在写dockerfile的时候使用了echo的方式向文件里面写入 基本格式是 echo 34 想要写入的操作 34 gt gt gt 路径 dockerfile 1 因为是要向文件里面进行一个写操作同时希望建立容器的时候执行这个操作 所
  • Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge阅读笔记

    本文提出了一种基于深度神经网络的VQA模型 xff0c 并报告了一套广泛的实验来确定每个设计选择的贡献和替代设计的性能 它提供了关于VQA模型各个组件重要性的指示器 xff0c 一 Summary of findings 1 使用一个sig
  • Ubuntu系统用VNCViewer连不上远程的解决办法

    有时Ubuntu重启电脑重新联网之后 xff0c 用VNCViewer远程时提示timeout 解决办法 点击Ubuntu电脑系统的设置按钮 xff0c 进入共享选项卡 检查远程登录是不是已经开启 xff0c 屏幕共享是不是活动状态 屏幕共
  • OAuth2.0的四种授权方式

    前言 OAuth 简单理解就是一种授权机制 xff0c 它是在客户端和资源所有者之间的授权层 xff0c 用来分离两种不同的角色 在资源所有者同意并向客户端颁发令牌后 xff0c 客户端携带令牌可以访问资源所有者的资源 OAuth2 0 是
  • PowerBuilder---合并相同单元格

    在用数据窗口显示数据时 xff0c 经常会出现某一列的连续多行内容是相同的 xff0c 在有中国特色的软件使用者看来这是一个很大的问题 一定要合并才能显得规范 如下图 xff1a PowerBuilder 合并相同单元格 qibin jin
  • 各行业的英语术语(绝对精华 1)

    不看不知道 各行业的英语术语 xff08 绝对精华 xff09 化妆品中英文对照 makeup xff08 粉底 xff09 mask xff08 面膜 xff09 mascara xff08 睫毛膏 xff09 milk xff08 乳
  • SD-WAN与SDN:揭开差异 如何选择虚拟化网络

    随着物联网 工业互联网等新兴业务场景的不断涌现 xff0c 网络正面临着开放 融合 智能化 个性化等需求 在SDN进入稳定爬升期 xff0c 还未完全落地之时 xff0c 以SD WAN xff08 软件定义的广域网 xff09 为代表的新
  • H5实例 移动端页面练习

    文章目录 标签知识点 标签知识点 name 61 viewport xff1b 屏幕设定maximum scale 61 1 0 minimum scale 61 1 0 initial scale 61 1 0 xff1b 最大最小缩放比
  • SSH修改远程端口后无法登录的解决办法

    参考 xff1a https www cnblogs com opswa p 16076001 html SSH是一种网络协议 xff0c 用于计算机之间的加密登录 如果一个用户从本地计算机 xff0c 使用SSH协议登录另一台远程计算机
  • 串口调试助手如何使用

    需要设置好对应的串口端口 xff0c 波特率 校验位 数据位 停止位 xff0c 然后打开串口 这是一个绿色版的 xff0c 比深蓝串口调试助手好用的多
  • 来来来!我告诉你 AUTOSAR架构深度解析从入门到放弃

    如何快速学习AUTOSAR 关于AUTOSAR的背景和架构信息 xff0c 这里就不详细展开了 大家可以参看 xff1a AUTOSAR的分层架构 一文了解 今天我们重点讲讲如何快速学习AUTOSAR架构的方法 如何获取规范文档 xff1f
  • 智能指针make_unique 与make_shared 的知识介绍

    关于make unique的构造及使用例程 xff0c MSDN的讲解非常详细 xff08 https msdn microsoft com zh cn library dn439780 aspx xff09 使用过程中 xff0c 主要有
  • Adaptive AutoSAR 标准介绍

    关于自适应AutoSAR 平台 自适应autosar 平台实现了adaptive applications的运营环境 它提供了两种接口 xff0c 一种是service 一种是API 平台功能分成两部分 xff1a service部分和ad
  • MPU和MCU的区别

    MCU指的是微控制 器 集合了FLASH RAM和一些外围器件 MCU一般使用片内FLASH来存储和执行程序代码 MPU指的是微处理 器 FLASH和RAM则需要设计者自行搭建 xff0c 当然MCU也可以外扩 MPU的电路设计相对MCU较
  • powerbuilder9 窗口高级配置

    一 无标题栏 办法 xff1a 把窗口类型配置成response或者popup xff0c 窗口属性中的titlebar属性就变成可以选择 xff0c 把titlebar属性的勾点掉 xff0c 就可以配置成无标题栏 xff0c main类
  • Adaptive AUTOSAR——Cryptography (VRTE3.0 R21-11)

    Cryptography模块是用于自适应汽车软件架构的密码学模块 xff0c 主要用于实现各种安全功能 xff0c 包括加密 解密 签名和验证 等操作 它的主要作用包括 xff1a 安全通信 xff1a 使用各种算法对数据进行加密和解密 x
  • 一文读懂AUTOSAR SecOC通讯

    为什么用SecOC 在车载网络中 xff0c CAN总线作为常用的通讯总线之一 xff0c 其大部分数据是以明文方式广播发送且无认证接收 这种方案具有低成本 高性能的优势 xff0c 但是随着汽车网联化 xff0c 智能化的业务需要 xff
  • 汽车操作系统的趋势

    操作系统 OS 需要管理基于计算机的系统的所有硬件和软件 xff0c 并且是汽车行业的关键软件平台 本文侧重于提供教程信息和汽车操作系统策略的一些观点 每个操作系统在功能 程序大小 复杂性 开发工作和硬件要求以及生命周期维护 支持工作和成本
  • 4.5.2 DDS

    1 标准及发展简介 DDS 的全称为 Data Distribution Service xff08 数据分发服务 xff0c 是由 OMG 联盟在 2004 年发布的中间件协议和应用程序接口标准 采用发布 订阅模型 xff0c 提供丰富的

随机推荐