深度学习——MetaFormer Is Actually What You Need for Vision

2023-10-29

文章目录

前言
MetaFormer结构
PoolFormer结构

前言

本文总结CVPR2022的oral文章《MetaFormer Is Actually What You Need for Vision》。该文章研究了ViT结构和类MLP结构的模型，将两者中相同的部分提取出来，组成了MetaFormer结构，并指出两者的性能都得益于MetaFormer结构，接着在此基础上提出了PoolFormer结构。

MetaFormer结构

在这里插入图片描述
上图左侧为MetaFormer结构，MetaFormer中的Token Mixer模块用于混合多个token之间的信息。该模块在类ViT结构的模型中对应为Attention模块（例如DeiT），而在类MLP结构的模型中对应SpatialMLP模块（例如GMLP、ResMLP）。

作者指出MetaFormer结构为类ViT和类MLP模型性能的主要来源，为了验证这一点，作者将MetaFormer结构中的Token Moixer模块替换为恒等映射（其实就是一个大卷积模型，一个单通道的大卷积处理一个特征图（token）），模型在ImageNet上的top-1准确率仍可达 74.3%。

此外，作者通过实验发现去除Norm、Channel MLP、Shortcut中的任意一个模块，模型均难以收敛，由此验证了MetaFormer中的结构缺一不可。

PoolFormer结构

作者在MetaFormer的基础上引入了PoolFormer结构，PoolFormer通过平均池化融合多个Token之间的信息，相比于Attention和SpatialMLP，池化操作不会引入额外的参数，并且计算量更小。PoolFormer的结构如下图所示：
在这里插入图片描述
其中Pooling操作的Pytorch代码如下

注意到池化操作后有一个减法操作，作者的解释（见上图注释）我并不是很认可，这个操作更像是个trick，但是我没有在文章中找到去除这个减法操作后模型的性能变化情况。

PoolFormer在ImageNet上的准确率如下图所示，所有模型都没有使用pretrain的权重
在这里插入图片描述

个人思考详见上一篇博文，文章中还有目标检测等任务的实验结果，现在做backbone是越来越卷。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

人工智能

python

深度学习——MetaFormer Is Actually What You Need for Vision 的相关文章

Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的

随机推荐

计算机BIOS的简单设置

BIOS是什么 BIOS全称是基本输入输出系统 Basic Input Output System 是由主板厂商固化到主板上的一个特殊的计算机程序它会在计算机开机的时候会检测硬件运行自检程序然后开始查找操作系统并引导到操作系统所以
open3d 点到点云之间的距离

关键代码 dists pcd compute point cloud distance target chair pcd chair PointCloud import open3d as o3d import numpy as np if
Impala的分析函数(基于impala2.12)

分析函数又称为开窗函数是一种特殊的内置函数分析函数不会仅限于对每个group by的分组产生一个结果它操作的是一个窗口 window 输入的行是排序和分组的可以通过over 语句使用灵活的条件 impala的分析函数是从impala
GIF动态图制作工具（免费），附教程

GIF动态图制作工具免费这里推荐一款动态图制作工具还可以视频剪辑等等功能非常强大且占内存较小完全免费非常好用软件格式工厂网上直接搜就行下载链接在下方动态图制作教程如下动态图 CSDN发动态图只允许5MB以下所以我选了限制大
Python编程之斐波那契数列

问题描述完成斐波拉契数列的输出程序分析斐波那契数列 Fibonacci sequence 又称黄金分割数列指的是这样一个数列 0 1 1 2 3 5 8 13 21 34 在数学上费波那契数列是以递归的方法来定义 F0 0 n 0
CloudCompare——采样滤波

目录一随机采样 1 算法原理及代码实现 2 软件实现 3 结果展示二空间采样 1 算法原理 2 软件实现 3 结果展示三八叉树采样 1 1 算法原理及代码实现 2 软件实现 3 结果展示四八叉树采样 2 1 算法原理及代码实
增删改查

Table structure for user DROP TABLE IF EXISTS user CREATE TABLE user id int 11 NOT NULL AUTO INCREMENT userName varchar
PAT_A1134#Vertex Cover

Source PAT A1134 Vertex Cover 25 分 Description A vertex cover of a graph is a set of vertices such that each edge of the
splitVector "errmsg" : "not authorized on test to execute command

mongodb开启权限之后 splitVector 需要的权限 user test da db test 拥有管理元权限都不能执行成功 gt db system users find id admin dba user dba db ad
flex布局，让2个高度不固定的元素占满屏幕

例如有这样的一个容器 div class outer div class head div div class content div div outer 的高度是屏幕的高度head 的高度是不确定的由内容撑高如何通过纯css使得 co
会议OA项目之我的会议

目录一会议OA名词介绍二我的会议SQL语句编写三我的会议后台四前端一会议OA名词介绍我的会议当前登录账号是某会议主持人则查询出来我的审批当前登录账号是某会议的指定审批人并且会议状态是待审核则查询
视频通信中的码率控制算法

码率控制技术RC Rate Control 是视频编码中一个非常重要的技术模块不同的应用场景对视频编码的码率控制有不同的需求离线编码通常采用可变码率 VBR 实时视频系统通常采用恒定码率 CBR 本篇技术干货将深度剖析视频编码中的码率控
Redis Hash查询-单个key存多个对象和多个key存整个对象的差异

使用的是 NET CORE的StackExchange Redis客户端程序操作redis 以下是个人见解单个key存多个对象优点获取多个数据或全部数据的时候比较方便操作简单获取全部 var list await redisCli
NetCDF(nc)读写与格式转换介绍

本文介绍了NetCDF文件格式并详细讲解了如何使用Python对NetCDF文件进行读写操作进而介绍了NetCDF文件的地理参考最后以两个数据为例讲解了怎么将NetCDF格式的数据转GeoTIFF格式的数据 nc文件转为 tif文件
嵌入式Linux--menuconfig详解

menuconfig 1 简介 menuconfig是一套图像化配置工具由ncurses库提供软件支持 ncurses库提供了一系列的函数以便使用者调用它们去生成基于文本的用户界面 menuconfig本身的软件只负责提供menuconf
docker容器域名映射

为解决每次区块链连接地址变动时都必须修改程序内或者程序内附带的连接IP地址故实现本地hosts文件IP与域名的映射实现方式场景一服务为传统方式启动解决方法在服务器本地的 etc hosts文件内添加IP和域名的映射 vim e
将Qtcreator编译器、调试器等配置为MSVC2017/2019

目录 1 前言 2 工具原料 2 1 安装Windows下的软件开发调试器 3 配置Qtcreator 1 前言安装Qt或Qtcreator时一般选择MinGW 64 bit或MSVC编译器对于MinGW 64 bit很简单一般安
Mysql检查列是否存在并新增、修改、删除列

很多时候只有自己遇到了问题才会着手去解决这次刚好遇到了Mysql检查列是否存在的问题顺便看到了网上其他大神也遇到过该问题就当作经验自己积累下来吧在MYSQL中新增修改删除列时不能进行IF EXISTS判断 IF语句只能出现在存储
c++ opencv4.5.5 学习笔记（九）检测出物体轮廓 cv::findContours (三角形、圆形、四边形、五边形、六边形、星形)

检测出物体轮廓 findContours 检测出物体轮廓 image 单通道图像矩阵可以是灰度图但更常用的是二值图像一般是经过Canny 拉普拉斯等边缘检测算子处理过的二值图像 contours 定义为 vector
深度学习——MetaFormer Is Actually What You Need for Vision

文章目录前言 MetaFormer结构 PoolFormer结构前言本文总结CVPR2022的oral文章 MetaFormer Is Actually What You Need for Vision 该文章研究了ViT结构和类ML

热门标签