ViT常见的模型规格以及源码记录

2023-11-08

ViT常见的模型规格以及源码记录

综述
介绍
- 网络结构
- 模型规格
源码实现

综述

论文题目：《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》

会议时间：International Conference on Learning Representations, 2021 (ICLR, 2021)

论文地址：https://openreview.net/pdf?id=YicbFdNTTy

论文源码：https://github.com/lucidrains/vit-pytorch（非官方）

介绍

网络结构

在这里插入图片描述

图片引自：https://github.com/lucidrains/vit-pytorch

模型规格

常见规格：

Model	Layers	Hidden size D	MLP size	Heads	Params
ViT-Base	12	768	3072	12	86M
ViT-Large	24	1024	4096	16	307M
ViT-Huge	32	1280	5120	16	632M

另外，还会添加patch大小，例如：ViT-L/16表示使用 16 × 16 16\times16 16×16的patch大小切分图片。

源码实现

class ViT(nn.Module):
    def __init__(self, *, image_size, patch_size, num_classes, dim, depth, heads, mlp_dim, pool='cls', channels=3,
                 dim_head=64, dropout=0., emb_dropout=0.):
        super().__init__()
        image_height, image_width = pair(image_size)
        patch_height, patch_width = pair(patch_size)

        assert image_height % patch_height == 0 and image_width % patch_width == 0, 'Image dimensions must be divisible by the patch size.'

        num_patches = (image_height // patch_height) * (image_width // patch_width)
        patch_dim = channels * patch_height * patch_width
        assert pool in {'cls', 'mean'}, 'pool type must be either cls (cls token) or mean (mean pooling)'

        self.to_patch_embedding = nn.Sequential(
            Rearrange('b c (h p1) (w p2) -> b (h w) (p1 p2 c)', p1=patch_height, p2=patch_width),
            nn.LayerNorm(patch_dim),
            nn.Linear(patch_dim, dim),
            nn.LayerNorm(dim),
        )
        # 位置编码
        self.pos_embedding = nn.Parameter(torch.randn(1, num_patches + 1, dim))
        # 类别token（类似类别查询向量）
        self.cls_token = nn.Parameter(torch.randn(1, 1, dim))
        self.dropout = nn.Dropout(emb_dropout)

        self.transformer = Transformer(dim, depth, heads, dim_head, mlp_dim, dropout)

        self.pool = pool
        self.to_latent = nn.Identity()

        self.mlp_head = nn.Sequential(
            nn.LayerNorm(dim),
            nn.Linear(dim, num_classes)
        )

    def forward(self, img):
        x = self.to_patch_embedding(img)
        b, n, _ = x.shape
        # 类别token先与特征合并（沿序列方向合并）
        cls_tokens = repeat(self.cls_token, '1 1 d -> b 1 d', b=b)
        x = torch.cat((cls_tokens, x), dim=1)
        # 加上位置编码，用于表示图片patch的位置
        x += self.pos_embedding[:, :(n + 1)]
        x = self.dropout(x)

        x = self.transformer(x)

        x = x.mean(dim=1) if self.pool == 'mean' else x[:, 0]

        x = self.to_latent(x)
        return self.mlp_head(x)

注：以上仅是笔者个人见解，若有问题，欢迎指正。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Transformer

笔记

Pytorch

深度学习

ViT常见的模型规格以及源码记录的相关文章

使用 KL 散度时，变分自动编码器为每个输入 mnist 图像提供相同的输出图像

当不使用 KL 散度项时 VAE 几乎完美地重建 mnist 图像但在提供随机噪声时无法正确生成新图像当使用 KL 散度项时 VAE 在重建和生成图像时都会给出相同的奇怪输出这是损失函数的 pytorch 代码 def loss fu
在pytorch张量中过滤数据

我有一个张量X like 0 1 0 5 1 0 0 1 2 0 我想实现一个名为的函数filter positive 它可以将正数据过滤成新的张量并返回原始张量的索引例如 new tensor index filter positive
一次热编码期间出现 RunTimeError

我有一个数据集其中类值以 1 步从 2 到 2 i e 2 1 0 1 2 其中 9 标识未标记的数据使用一种热编码 self one hot encode labels 我收到以下错误 RuntimeError index 1 is
BatchNorm 动量约定 PyTorch

Is the 批归一化动量约定 http pytorch org docs master modules torch nn modules batchnorm html 默认 0 1 与其他库一样正确例如Tensorflow默认情况下似乎
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
Pytorch Tensor 如何获取元素索引？ [复制]

这个问题在这里已经有答案了我有 2 个名为x and list它们的定义如下 x torch tensor 3 list torch tensor 1 2 3 4 5 现在我想获取元素的索引x from list 预期输出是一个整数 2
如何使用Python计算多类分割任务的dice系数？

我想知道如何计算多类分割的骰子系数这是计算二元分割任务的骰子系数的脚本如何循环每个类并计算每个类的骰子先感谢您 import numpy def dice coeff im1 im2 empty score 1 0 im1 numpy
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
样本（）和r样本（）有什么区别？

当我从 PyTorch 中的发行版中采样时两者sample and rsample似乎给出了类似的结果 import torch seaborn as sns x torch distributions Normal torch tens
Pytorch .to('cuda') 或 .cuda() 不起作用并且卡住了

我正在尝试做 pytorch 教程当我尝试将他们的设备设置为 cuda 时它不起作用并且我的代码运行被卡住有关具体信息我正在使用 conda 环境蟒蛇3 7 3 火炬1 3 0 cuda 10 2 NVIDIA RTX2080TI
Pytorch 中是否有一种方法可以以可反向传播的方式计算唯一值的数量？

给定以下张量这是网络的结果注意 grad fn tensor 121 241 125 1 108 238 125 121 13 117 121 229 161 13 0 202 161 121 121 0 121 121 242 125
如何将 35 类城市景观数据集转换为 19 类？

以下是我的代码的一小段使用它我可以在城市景观数据集上训练名为 lolnet 的模型但数据集包含 35 个类别标签 0 34 imports trainloader torch utils data DataLoader datase
导入pytorch时，未安装microsoft Visual C++ Redistributable

我在一台带有 GPU 的 Windows 机器上工作我已经在 conda 环境中安装了 pytorch conda install pytorch torchvision cudatoolkit 10 1 c pytorch 然后我运行
如何在pytorch中动态索引张量？

例如我有一个张量 tensor torch rand 12 512 768 我得到了一个索引列表说它是 0 2 3 400 5 32 7 8 321 107 100 511 我希望从给定索引列表的维度 2 上的 512 个元素中选择 1
PyTorch 中的标签平滑

我正在建造一个ResNet 18分类模型为斯坦福汽车使用迁移学习的数据集我想实施标签平滑 https arxiv org pdf 1701 06548 pdf惩罚过度自信的预测并提高泛化能力 TensorFlow有一个简单的关键字参数Cr
带有填充掩码的 TransformerEncoder

我正在尝试使用 src key padding mask 不等于 none 来实现 torch nn TransformerEncoder 想象输入的形状src 20 95 二进制填充掩码的形状为src mask 20 95 填充标记的位置
PyTorch 中的后向函数

我对 pytorch 的后向功能有一些疑问我认为我没有得到正确的输出 import numpy as np import torch from torch autograd import Variable a Variable torch
从 torch.autograd.gradcheck 导入 zero_gradients

我想复制代码here https github com LTS4 DeepFool blob master Python deepfool py 并且我在 Google Colab 中运行时收到以下错误 ImportError 无法导入名称

随机推荐

BERTopic

论文标题 BERTopic Neural topic modeling with a class based TF IDF procedure 论文作者 Maarten Grootendorst 论文链接 https arxiv org p
vue 引入weixin-js-sdk报错： import wx from ‘weixin-js-sdk‘ wx=‘undefined‘

vue 中通过 npm 引入 weixin js sdk 使用 wx config 时报错了 c0e6 189 Uncaught in promise TypeError Cannot read property config of und
分支限界法解作业分配问题的实现（C++）

include
Mac版本的After Effects 2023中英文切换方法

打开ae模板会发现有许多系统的表达式错误这些错误时由于系统语言不通导致的只要更改下ae界面语言即可那么如何将中文版的After Effects 2023 Mac版切换成英文版呢新版本已经不能通过首选项更改语言设置了要从applic
国内直接下载google play谷歌商店apk安装包的网站【https://apkpure.com/】

https apkpure com 这里可以直接下载google play 谷歌商店中的app
RedisTemplate使用最详解（一）--- opsForValue()

1 set K var1 V var2 新增一个字符串类型的值 var1是key var2是值 key存在就覆盖不存在新增 redisTemplate opsForValue set BBB 你好 2 set K key V value
$Luogu[P3673]$小清新计数题

这他妈什么玩意儿这里是可爱的链接菌转化模型对于第 i 句话第 p 句话为真话将 i p 连一条白边第 p 句话为假话将 i p 连一条黑边显然我们的图会是一片基环树森林并且边为无向边白边连的两点真假相同黑边相反那么要
python存csv中文乱码问题

这两天做了一个小测试是抓的天气信息本来想存数据库后来觉得还是存csv比较好使用方便但是在使用的过程中发现存中文的时候会出现乱码的情况查了一下资料跟大家分享一下python3中存csv乱码的问题亲测在python2中是不能设置这
Linux脚本- 将当前文件夹以及所有子文件夹下的所有.cpp文件，拷贝到指定文件路径下

需求将当前文件夹以及所有子文件夹下的所有 cpp文件拷贝到指定文件路径 home majn llvm project llvm cpp test suite下以下是一个用于实现该功能的 Bash 脚本它会递归地查找当前文件夹和所有子
mpvue 未找到入口 app.json 文件

从网上下了个mpvue的程序下来说是直接用微信打开目录就ok了但是打开之后发现编译直接出错了说未找到入口 app json 文件懵逼啊原来要先运行 npm intall 安装依赖包然后再运行 npm run dev 执行一下m
SQL Server数据导入导出工具BCP详解

bcp是SQL Server中负责导入导出数据的一个命令行工具它是基于DB Library的并且能以并行的方式高效地导入导出大批量的数据 bcp可以将数据库的表或视图直接导出也能通过SELECT FROM语句对表或视图进行过滤后导出
磁盘分区基础和LINUX上硬盘分区设备号解释

现在就开始讲讲分区先明确一下概念主分区一块物理硬盘上可以被独立使用的一部分一个硬盘最多可以有4个主分区扩展分区为了突破一个物理硬盘只能有4个分区的限制引入了扩展分区扩展分区和主分区的地位相当但是扩展分区本身不能被直接使用
linux之getopt 函数

命令行参数解析函数 getopt getopt 函数声明如下 include
mysql日期相减取小时

mysql日期相减取小时 TIMESTAMPDIFF HOUR a StartTime a EndTime 转载于 https www cnblogs com penghq p 8657064 html
各国语言对应翻译表

为了工作方便自己做了一个地区语言的英文翻译让自己可以更快的找到自己需要的地方同时分享给大家谢谢中文各国语言翻译序号中文翻译 1 阿尔巴尼亚语 2 阿拉伯语 3 阿姆哈拉语 4 阿塞拜疆语 Az rbaycan 5 爱尔
本地springboot项目上传到gitee

1 在gitee上新建一个仓库创建后可以拿到仓库地址 https gitee com ouyangshuiming linux test git 2 选中创建git仓库 3 4 最后一步一定记得这里要写上一段话才能成功提交比如gi
Elasticsearch的一些基本概念

文章目录基本概念文档和索引 JSON文档元数据索引 REST API 节点和集群节点 Master eligible节点和Master节点 Data Node 和 Coordinating Node 其它节点分片 Primary
如何找到电脑自带的浏览器

1 找到电脑自带的浏览器首先就是进入你的C盘然后在C盘里找到自己的如下路径 C Program Files internet explorer 找到成功完成
Conan

环境 ubuntu bionic的docker image shell docker run it ubuntu bionic 预装工具 shell apt get install cmake 安装conan shell pip3 inst
ViT常见的模型规格以及源码记录

ViT常见的模型规格以及源码记录综述介绍网络结构模型规格源码实现综述论文题目 AN IMAGE IS WORTH 16X16 WORDS TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

ViT常见的模型规格以及源码记录

ViT常见的模型规格以及源码记录

综述

介绍

网络结构

模型规格

源码实现

ViT常见的模型规格以及源码记录 的相关文章

随机推荐

热门标签

ViT常见的模型规格以及源码记录的相关文章