ViT（vision transformer）原理快速入门

2023-11-18

本专题需要具备的基础：

了解深度学习分类网络原理。
了解2017年的transformer。

Transformer 技术里程碑：

ViT简介

时间：2020年CVPR

论文全称：《An Image is Worth 16*16 Words: Transformers for Image Recognition at Scale》

发明人：谷歌团队

简介：论文中提出了 Vision Transformer (ViT)，能直接利用 Transformer 对图像进行分类，而不需要卷积网络。（论文中也提到CNN+transformer，但效果差不多）

基本原理：将图像划分为16x16的小切片，转成序列，输入ViT中，得到分类。

ViT算法全貌

ViT算法结构图

有了基础，理解上图不是很复杂，代码也不是很长，记录几个要点：

图像是怎么输入transformer中的：用一个16x16尺度，步长为16，通道数为768的卷积，对图像进行特征提取，这种卷积，相当于把图片信息，分割为独立的14*14的小切片。14x14后续会拉平，就成为NLP中序列一样。
类别编码（class token）：假设你9个向量经过编码器之后，你该选择哪一个向量进入到最后的分类头呢？因此这里作者给了额外的一个用于分类的向量，与输入进行拼接。同样这是一个可学习的变量。这东西刚开始会随机初始化，作为图像的类别编码信息，然后会和图像切片信息做通道拼接。
位置编码：位置编码有两种方式，一种以固定算法生成，另一种是自动学习，ViT中用的自动学习。
怎么得到分类结果：经过transformer encoder后，数据维度为197 x 768，其中，1x768是网络预测的类别信息，196x768是图像每个‘切片’的信息。后续只要单独提取出类别信息这一维度，通过全连接层（1 x 768转成 1 x class_num）、softmax等，就能让网络学会给出类别索引序号。

较好的参考资料

Vision Transformer详解_霹雳吧啦Wz-CSDN博客

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

主流算法解析

Transformer

深度学习

人工智能

ViT（vision transformer）原理快速入门的相关文章

用通俗易懂的方式讲解：图解 Transformer 架构

文章目录用通俗易懂方式讲解系列 1 导语 2 正文开始现在我们开始编码从宏观视角看自注意力机制从微观视角看自注意力机制通过矩阵运算实现自注意力机制
用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
15天学会Python深度学习，我是如何办到的？

陆陆续续有同学向我们咨询 Python编程如何上手深度学习怎么学习如果有人能手把手一对一帮帮我就好了我们非常理解初学者的茫然和困惑大量视频书籍广告干扰了大家的判断学习Python和人工智能成为内行人不难为此我们推出了
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金

随机推荐

【项目】BlogTest（Web自动化）

个人博客Web自动化一项目背景二项目功能三测试计划功能测试自动化测试一项目背景个人博客系统采用前后端的方法来实现同时使用了SpringBoot MySQL Ajax等相关技术同时部署到云服务器上前端主要有四个
Sql Server 存储过程

摘自收集引言前面我们曾提到过 T SQL是一门结构化查询语言我们曾学习过C 语言的函数使用函数时需要两步第一步定义函数它允许包含参数和返回值第二步调用函数如果有参数还需传递参数这样就执行了函数中的代码函数可以反复调用
Redis cluster集群：原理及搭建

1 为什么使用redis redis是一种典型的no sql 即非关系数据库像python的字典一样存储key value键值对工作在memory中所以很适合用来充当整个互联网架构中各级之间的cache 比如lvs的4层转发层 ng
基于openstack的免费云计算平台使用方法总结（IBM power架构、支持docker)

声明此文档只做学习交流使用请勿用作其他商业用途 author 朝阳 tony E mail linzhaolover 163 com Create Date 2015 3 6 13 55 38 Friday Last Change 20
服务器配置vue项目的默认路由,Vue-Router项目设置Nginx伪静态

Vue Router项目设置Nginx伪静态使用Vue Vue Router的项目在history模式下出现了刷新页面404的问题服务器为Nginx 出现刷新404的原因是Vue Router定义的路由并没有真实的存在于服务器上 N
图像镜像翻转

将图像左右镜像翻转生成翻转后的图像 python3代码 import numpy as np import cv2 import matplotlib pyplot as plt 图片镜像翻转 def left2right img pat
STM32矩阵按键（定时器）

由于采用延时函数会影响程序速度所以采用定时器中断写的矩阵扫描按键利用简单的状态机思想 1 定时器初始化定时器初始化 void TIM2 Configuration void TIM TimeBaseInitTypeDef TIM Ti
C++的编程规范

C 是一种功能强大的编程语言具有广泛的应用领域编写高质量可维护的C 代码需要遵循一定的编程规范目录命名规范头文件和包含缩进和空格注释函数和类错误处理内存管理代码风格命名规范使用有意义且易于理解的变量函数和类名
img标签图片加载失败显示图片

img标签图片加载失败显示图片 onerror nerr r null src image community initialize img png
dfs序（基础讲解）

dfs序简介 dfs序一般用于树状结构中如图图中红色序号为每个点对应的dfs序序号黑色序号为每个点默认的序号我称之为节点序序号下文同可见 dfs序如其名 dfs序序号是按照dfs顺序标记的所以说给每个节点安排上dfs序序号也很
oracle存储过程调试

oracle如果存储过程比较复杂我们要定位到错误就比较困难那么可以存储过程的调试功能先按简单的存储过程做个例子就是上次做的存储过程 proc test 1 先在数据库的procedures文件找到我们之前创建存储过程 2 选中存储过
R语言 Scale函数

在我们做数据的时候一个数据会有很多特征比如在描述影响房价的因素有房子面积房间数量等而不同的特征存在不同的量纲为了消除量纲数值差异等我们就需要对数据进行中心化和标准化那什么是中心化什么是标准化呢所谓中心化就是将数据减去均
STL中的排序

0 前言 STL 为什么你必须掌握对于程序员来说数据结构是必修的一门课从查找到排序从链表到二叉树几乎所有的算法和原理都需要理解理解不了也要死记硬背下来幸运的是这些理论都已经比较成熟算法也基本固定下来不需要你再去花费心思去
利用Figlet工具创建酷炫Linux Centos8服务器-登录欢迎界面-SHELL自动化编译安装代码

因为我们需要生成需要的特定字符所以需要在当前服务器中安装Figlet 默认没有安装包的其实如果我们也只要在一台环境中安装然后需要什么字符只要复制到需要的服务器中并不需要所有都安装同样的我们也可以利用此生成的字符用到脚本运行的开始
大数据入门 - 基础概念

文章目录 1 发展历史 2 分布式系统可靠性可扩展性可维护性 4 单机引擎的问题事务写入和存储数据的序列化 3 GFS Google File System master 的快速恢复性和可用性保障数据写入的优化 4 MapRe
QT中setWindowFlags和 setAttribute使用详解及注意问题

1 setWindowFlags QT WindowFlags 主要设置一些窗口标志平常开发中主要有两类需求 1 1 将某一子窗口设置为最顶层窗口使用Qt Tool 属性 setWindowFlags Qt Tool 1 2 重新定义窗
【Redis】4、全局唯一 ID生成、单机（非分布式）情况下的秒杀和一人一单

目录一利用 Redis 实现全局唯一 ID 生成 1 为啥要用全局唯一 ID 生成 2 全局唯一 ID 生成器 3 全局 ID 的结构 4 代码实现 RedisIdWorker Test 5 全局唯一 ID 其他生成策略二添加优惠券
使用python爬取淘宝商品信息

要使用Python爬取淘宝商品信息您可以按照以下步骤安装必要的库您需要安装Python的requests库和BeautifulSoup库要使用Python爬取淘宝商品信息您可以按照以下步骤安装必要的库您需要安装Python的r
「科普」一文读懂生产制造MES系统

谈及MES必须先谈生产那什么是生成呢生产管理是通过对生产系统的战略计划组织指挥实施协调控制等活动实现系统的物质变换产品生产价值提升的过程生产管理是企业价值链的主要环节是构成企业核心竞争力的关键内容 1 什么是MES系
ViT（vision transformer）原理快速入门

本专题需要具备的基础了解深度学习分类网络原理了解2017年的transformer Transformer 技术里程碑 ViT简介时间 2020年CVPR 论文全称 An Image is Worth 16 16 Words Tran