Kaiming He 论文阅读笔记一——Masked Autoencoders

2023-05-16

2022年Kaiming大神又发表了三篇新paper,今天我们阅读其中的Masked Autoencoders Are Scalable Vision Learners以及Masked Autoencoders As Spatiotemporal Learners两篇,其原理相通,分别将所提出的Masked Autoencoder应用于图像和视频领域,本文着重介绍前者。

在这里插入图片描述
如图所示为Masked Autoencoder的结构,建立在BEIT的基础上,BEIT通过将输入图像分割为Patch,mask其中部分子图像之后,线性链接并将得到的token输入给encoder(vision transformer)。相比于BEIT,Masked Autoencoder的第一个亮点是使用了更高的mask比,从BEIT的15%提升到高达75%(在Masked Autoencoders As Spatiotemporal Learners的空间领域高达90%)。实验表明更大的mask比可以取得更好的效果。
在这里插入图片描述
第二个亮点是使用了非对称的encoder-decoder结构,encoder仅输入可见的图像子集(不输入masked token),配备一个轻量级的decoder,decoder的输入仍然保持全部图像。高mask和轻量级的decoder可以大大加速训练速度(3倍或更多),并且提高了准确性。作者分析因为输入的masked token与目标不符,因此去掉之后可以得到准确率的提升。作者给出了ImageNet验证集上的图像重建结果,如下图所示,可以看出模型通过推断缺失的补丁可以产生不同但看起来合理的输出,作者认为这种行为可以学习到有用的表征。
在这里插入图片描述
实验结果表明,Masked Autoencoder可以在大大提升速度的同时提升准确率,并且在所有ViT架构上均表现良好。
在这里插入图片描述
Masked Autoencoders As Spatiotemporal Learners中将同样的思路应用在三维空间:
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Kaiming He 论文阅读笔记一——Masked Autoencoders 的相关文章

随机推荐