Kaiming He 论文阅读笔记一——Masked Autoencoders

2023-05-16

2022年Kaiming大神又发表了三篇新paper，今天我们阅读其中的Masked Autoencoders Are Scalable Vision Learners以及Masked Autoencoders As Spatiotemporal Learners两篇，其原理相通，分别将所提出的Masked Autoencoder应用于图像和视频领域，本文着重介绍前者。

在这里插入图片描述
如图所示为Masked Autoencoder的结构，建立在BEIT的基础上，BEIT通过将输入图像分割为Patch，mask其中部分子图像之后，线性链接并将得到的token输入给encoder（vision transformer）。相比于BEIT，Masked Autoencoder的第一个亮点是使用了更高的mask比，从BEIT的15%提升到高达75%（在Masked Autoencoders As Spatiotemporal Learners的空间领域高达90%）。实验表明更大的mask比可以取得更好的效果。
在这里插入图片描述
第二个亮点是使用了非对称的encoder-decoder结构，encoder仅输入可见的图像子集（不输入masked token），配备一个轻量级的decoder，decoder的输入仍然保持全部图像。高mask和轻量级的decoder可以大大加速训练速度（3倍或更多），并且提高了准确性。作者分析因为输入的masked token与目标不符，因此去掉之后可以得到准确率的提升。作者给出了ImageNet验证集上的图像重建结果，如下图所示，可以看出模型通过推断缺失的补丁可以产生不同但看起来合理的输出，作者认为这种行为可以学习到有用的表征。
在这里插入图片描述
实验结果表明，Masked Autoencoder可以在大大提升速度的同时提升准确率，并且在所有ViT架构上均表现良好。

Masked Autoencoders As Spatiotemporal Learners中将同样的思路应用在三维空间：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Kaiming He 论文阅读笔记一——Masked Autoencoders 的相关文章

【场景图生成】Graphical Contrastive Losses for Scene Graph Parsing

文章下载地址 xff1a Graphical Contrastive Losses for Scene Graph Parsing 代码地址 xff1a https github com NVIDIA ContrastiveLosses4V
jquery无法获取到textarea中的值详解

问题描述 xff1a 今天在springboot中jquery读取前端的值通过jquery打包为json传入后端 xff0c 发现其中textarea区域中的内容无法获取解决办法 xff1a 首先看你的textarea中是否有 name属
阿里云大学——Java语言基础自测考试 - 初级难度

1 假设有如下程序 xff1a span class token keyword public span span class token keyword class span span class token class name Dem
could not transfer artifact org.springframework.boot:spring-boot-starter-parent

Springboot异常 could not transfer artifact org springframework boot spring boot starter parent pom 2 3 0 RELEASE from to c
阿里云ECS搭建个人简历网站

能在自己的网站上搭建简历是不是很酷 xff0c 今天我就教大家如何在自己的服务器上搭建一个个人简历网站因为主流网站的搭站环境是LAMP环境 xff0c 所以第一步就是先去把服务器环境一修改为LAMP环境停止ECS实例运行点击使用就
GitHub加速神器FastGithub的使用

clone GitHub上的项目时经常超时 pull或push的时候也有类似情况有时GitHub也打不开 xff0c 这里推荐GitHub上的一个工具FastGithub xff0c 开启它后 xff0c 可大大减少超时情况的发生这里介
阿里云ECS打造属于自己的WEB——IDE编程环境

首先感谢 64 1430059860老哥的指导 xff0c 在阿里的官方视频卡着以后就一直进去入不了下一步了 xff0c 特向我的组长老哥带带 xff0c 最终搭建成功停止实例选择更换操作系统 xff08 如果使用centoS建议更换ub
给阿里云服务器装一个图形化界面——Gnome

我这里使用的是ubantu系统第一步 xff1a apt get update更新一下源第二步下载Gnome图形化界面 apt get install gnome shell ubuntu gnome desktop第三步下载完成 a
0基础使用阿里云打造自己的私人云盘

平时我们使用云盘例如有百度云 xff0c 蓝奏云 xff0c 小米云盘 xff0c 虽然给我们带来不少的便利 xff0c 但是也存在私人数据泄露和文件下载速度过慢的风险 xff0c 所以 xff0c 打造一款属于自己的私人云盘是一个很好的选
Redis无法加载配置文件中日志文件的解决方法

Can t open the log file Permission denied logfile usr local redis etc redis6380 log Can t open the log file Permission d
Request method ‘PUT‘ not supported

今天写后端接口出现问题 xff0c 出现Request method PUT not supported 可能是springboot的bug xff0c 在修改无果后 xff0c 关闭程序 xff0c 进行rebuild多次后 xff0c
关于前端传值，springboot后端的参数处理方式汇总

对于前端传值情况 xff0c 后端接收的几种情况 1 对于此类链接 http localhost 7398 order userPage page 61 1 amp pageSize 61 1 http localhost 7398 ord
Could not autowire. No beans of ‘xxxMapper‘ type found.

Could not autowire No beans of xxxMapper type found 的三种解决办法出现Could not autowire No beans of xxxMapper type found 的解决办法
后端对象数据为空的情况

后端对象数据为空的情况后端与前端对接数据形式不一致 xff0c 前端传入数据的方式 xff08 url post请求 xff0c 直接作为对象进行传递 xff09 xff0c 导致后端拿不到数据对接数据一致 xff0c request请
C-动态内存和运算符重载

titledatetagscategoriesdescription C 43 43 动态内存和运算符重载 2019 11 12 13 34 50 0800 动态内存运算符重载 C C 43 43 简单了解一下
高版本Ubuntu(如22.02)修改apt源，快速安装低版本gcc/g++

Ubuntu不同版本默认apt install gcc安装的gcc和g 43 43 版本不同 xff0c 如Ubuntu22 04默认安装gcc g 43 43 为11版本 xff0c 高版本Ubuntu无法直接通过apt install
COLMAP简介及通过2D序列图像进行3D重建操作流程

COLMAP是一种通用的运动结构 Structure from Motion SfM 和多视图立体 Multi View Stereo MVS 管道 pipeline xff0c 具有图形和命令行界面它为重建有序和无序图像集合提供了广泛的

随机推荐

我踩了所有ESP8266的坑，现在来个最终总结

STM32 43 ESP8266 协议接入IOT平台必成功 1 移植到STM32前先检查你的esp8266能不能用1 1 大概率你手里的esp8266是官方固件刷MQTT固件1 2 ESP8266 MQTT固件 AT指令列表 xff1a
进阶HAL开发——第二集-FreeRTOS

大三了 xff0c 在保研考研保研加分政策改变的焦虑中渡过了2021的前5个月好久没有认真学东西了不管了 xff0c 先学点东西把手里的比赛做完 xff0c 加不加分都随缘 FreeRTOS HAL库一简介二理解三使用3 1
百度easydl数据标注

一百度easydl数据标注脚本 1 官方标注工具 xff0c 链接如下 xff0c 由lableme改进而形成 GitHub Baidu AIP Easyyibiao 2 官网数据导入格式三种分别为 xff1a 布局如图所示 2 1js
Python爬虫入门实例一之淘宝商品页面的爬取

文章目录 1 爬取原界面2 代码解析3 完整代码引用源自 1 爬取原界面今天给大家介绍第一个爬虫小例子 xff0c 使用requests库爬取淘宝商品信息 xff0c 首先想要爬取的内容如下图 2 代码解析使用交互环境给大家带来代码解析
项目实战-外卖自提柜 1.项目介绍、协议制定

项目实战外卖自提柜 1 项目介绍协议制定项目实战外卖自提柜 2 CubeMX 43 FreeRTOS入门项目实战外卖自提柜 3 FreeRTOS主要API的应用项目实战外卖自提柜 4 FreeRTOS 堆栈分配调试技巧项
项目实战-外卖自提柜 2. CubeMX + FreeRTOS入门

项目实战外卖自提柜 1 项目介绍协议制定项目实战外卖自提柜 2 CubeMX 43 FreeRTOS入门项目实战外卖自提柜 3 FreeRTOS主要API的应用项目实战外卖自提柜 4 FreeRTOS 堆栈分配调试技巧项
项目实战-外卖自提柜 3. FreeRTOS主要API的应用

项目实战外卖自提柜 1 项目介绍协议制定项目实战外卖自提柜 2 CubeMX 43 FreeRTOS入门项目实战外卖自提柜 3 FreeRTOS主要API的应用项目实战外卖自提柜 4 FreeRTOS 堆栈分配调试技巧项
项目实战-外卖自提柜 4. FreeRTOS 堆栈分配、调试技巧

项目实战外卖自提柜 1 项目介绍协议制定项目实战外卖自提柜 2 CubeMX 43 FreeRTOS入门项目实战外卖自提柜 3 FreeRTOS主要API的应用项目实战外卖自提柜 4 FreeRTOS 堆栈分配调试技巧项
项目实战-外卖自提柜 5. ESP8266 01S配置与掉线处理

项目实战外卖自提柜 1 项目介绍协议制定项目实战外卖自提柜 2 CubeMX 43 FreeRTOS入门项目实战外卖自提柜 3 FreeRTOS主要API的应用项目实战外卖自提柜 4 FreeRTOS 堆栈分配调试技巧项
项目实战-外卖自提柜 6. 硬件工作与测试（原理图、PCB绘制、测试视频）

项目实战外卖自提柜 1 项目介绍协议制定项目实战外卖自提柜 2 CubeMX 43 FreeRTOS入门项目实战外卖自提柜 3 FreeRTOS主要API的应用项目实战外卖自提柜 4 FreeRTOS 堆栈分配调试技巧项
Anaconda中报CondaSSLError错误的解决方法

windows10上 xff0c 在使用Anaconda配置instant ngp环境时 xff0c 依次执行如下命令 xff0c 当执行第4条命令安装ffmpeg时 xff0c 报了如下错误 xff1a CondaSSLError Ope
【学习笔记】STM32固件库内部结构及功能简介

本文为 150集野火F103霸道指南者视频教程入门篇的学习笔记原视频 xff1a P16 初识STM32固件库我们认为固件库应该是什么样子的 1 汇编编写的启动文件 startup stm32f10x hd s 设置堆栈指针设置
香港中文大学计算机系直博面试经验

2021年7月12日 xff0c 我拿到了香港中文大学的offer xff0c 开个帖子记录一下面试题目 xff0c 方便学弟学妹参考一导师面试 2021年5月 xff0c 我通过发邮件联系了导师 xff0c 附上了我的个人简历 xff
基于检测代码库detectron2的蒸馏应用

基于检测代码库detectron2和蒸馏代码库RepDistiller xff0c 完成将蒸馏方法应用在目标检测的代码库 xff0c 完整代码已开源 1 参数添加在config defaults py里面添加蒸馏参数的默认值 xff0c
Transformer论文解读一（Transformer）

最近Transformer在CV领域很火 xff0c Transformer是2017年Google发表的Attention Is All You Need xff0c 主要是针对自然语言处理领域提出的本系列文章介绍Transformer
使用python的turtle库函数画圣诞树详细教程

今天改bug改到自闭 xff0c 花了一晚上时间最后发现是一个小参数导致的 xff0c 唉 xff01 想到最近画圣诞树不是很火嘛 xff0c 就放松一下 xff0c 出个画圣诞树的教程吧首先我们的目标是这样子的 xff1a 那么他有什么
GAN综述及其在图像生成领域的应用（含原理、代码详解）

本文将持续更新目录 1 基本GAN1 1 GAN xff08 2014 xff09 1 2 CGAN xff08 2015 xff09 1 3 DCGAN xff08 2015 xff09 1 4 VAE GAN xff08 2016 x
Out of Distribution(OoD)检测相关方法综述

1 Softmax based 方法这类方法利用预训练模型输出的最大 softmax 概率进行统计分析 xff0c 统计发现 OOD 样本和 ID 样本 softmax 概率的分布情况 xff0c 试图将二者的分布差距加大 xff0c 然
什么是自注意力机制（Self-attention）

文章目录 1 Self attention的基本概念1 1 Self attention的单个输出1 2 Self attention的并行计算1 3 Multi head Self attention1 4 Positional Enco
Kaiming He 论文阅读笔记一——Masked Autoencoders

2022年Kaiming大神又发表了三篇新paper xff0c 今天我们阅读其中的Masked Autoencoders Are Scalable Vision Learners以及Masked Autoencoders As Spati

Kaiming He 论文阅读笔记一——Masked Autoencoders

Kaiming He 论文阅读笔记一——Masked Autoencoders 的相关文章

随机推荐

热门标签