Transformer的稳健性更好吗？

2023-11-13

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

本文作者：Greene | 来源：知乎（已获作者授权）

https://zhuanlan.zhihu.com/p/361105702

最近 Transformer 在计算机视觉遍地开花，从纯 Transformer 到 Transformer 和 CNN 的显式隐式杂交，各个任务仿佛嗷嗷待哺的婴儿，等着 Transformer 奶一口，这自然让人好奇 Transformer 的稳健性（Robustness）如何。

然而，Transformer 训练起来算力要求大，对抗训练加 Transformer 训练起来算力要求就是大上加大，好在我们不用亲自花费精力去实验，或者实验到一半的你也可以先休息一下，因为在 arXiv 上已经出现了研究 Transformer 的稳健性的论文。

第一篇映入眼帘的便是 2021年3月26日公开的 Transformer 的老家谷歌做的这篇：

Srinadh Bhojanapalli, Ayan Chakrabarti, Daniel Glasner, Daliang Li, Thomas Unterthiner, Andreas Veit. Understanding Robustness of Transformers for Image Classification. arXiv:2103.14586

首先，Transformer 也存在对抗样本（Adversarial Example），这依然是一个问题，不过，针对 Transformer 的对抗扰动和针对 CNN 的对抗扰动看起来确实不太一样：

说明 Transformer 和 CNN 摔跤的地方不太一样。Transformer 的对抗扰动有明显的块（Patch）间差异，看起来似乎是每一块单独生成的对抗样本拼接而成的。他们使用 PGD 和 FGSM 测得的稳健性如下：

原文中对威胁模型（Threat Model）的描述是 one gray level，应该对应。可以看到，Transformer 相对 CNN 并没有显著地更加稳健（Robust），在 FGSM 下的稳健性和应对输入变换（旋转、平移）的稳健性都不如 CNN；在 PGD 攻击下的稳健性比 CNN 要好一些，个人猜测有可能是因为 Transformer 让 PGD 更难优化。

老实说，这个结果让人有点失望，本来以为 Transformer 有从根本上杜绝对抗攻击的可能，但这些结果表明，并没有 o(╥﹏╥)o

不过令人欣慰的是，对抗样本在 Transformer 和 CNN 之间的迁移性不好:

这看起来似乎佐证了 Transformer 和 CNN 确实跌倒在不同的地方^[1]。这篇文章处处透露着谷歌的豪气，只能说，不愧是谷歌。

就在这篇文章出现的三天后，arXiv上便再次出现了一篇研究 Transformer 的稳健性的论文：

Rulin Shao, Zhouxing Shi, Jinfeng Yi, Pin-Yu Chen, Cho-Jui Hsieh. On the Adversarial Robustness of Visual Transformers. arXiv:2103.15670

这篇论文最吸引人的地方是开篇的第一幅图：

这个 Transformer 看起来非常稳健啊，难道谷歌这次翻车了？按照这张图，Transformer 的稳健性似乎直接达到了对抗训练之后的CNN基准^[2]，而且他的结论是越加 CNN，就越不稳健......

然而看到后面却发现，好像结论跟谷歌没差，他们给出的PGD 攻击的结果如下：

在同样的威胁模型下（），ViT-B/16 的稳健精确度为 11.05% ~ 4.54%，与谷歌那篇论文的结论基本一致。图 1 目测绘制的是威胁模型为的结果，这个威胁模型比一个灰度阶梯（1/255）还小，实际意义有限^[3]。

他们做了更加完善的迁移攻击的研究，结果如下：

颜色更深表示迁移性更强，对角线是自己跟自己的迁移攻击成功率，可以看到，结论与谷歌那篇中一致，对抗样本在 Transformer 与 CNN 之间的迁移性较低。

难能可贵的是，最耗时间的对抗训练他们也帮我们做了，这里使用的威胁模型是常见的：

需要注意的是，每个模型只训练了 20 个周期（Epoch），一般的对抗训练会进行100个周期（Epoch）以上^[4]。根据这个结果，Transformer 在对抗训练后的效果似乎比 CNN 要好，两个精确度都要高一些。

对比 ResNet-18 和 ViT-B/4 使用 TRADES 对抗训练得到的结果，ViT-B/4 的标准精确度（Clean）要高 7.4%，稳健精确度（AutoAttack）要高 4.3%；鉴于只训练了20个周期，这个更好的效果有可能是因为 Transformer 在对抗训练的前期比 CNN 收敛得更快。

Transformer 是比 CNN 更稳健呢？还是稳健性跟 CNN 差不多呢？两篇论文，诸君自取。不过可以确定的是，Transformer 跟 CNN 跌倒的方式不同，他们确实学习到了很不一样的特征，而不一样的特征能得到相似的效果，不难理解为何关于 Transformer 的论文这么多了。

PS：Transformer 有没有合适的翻译额，中英混杂看起来很累，翻译成变压器或者变形金刚似乎不太好。

参考

^不过这里测试迁移性使用的是 PGD 攻击，之前已经有研究表明，就迁移性而言，使用 FGSM 这种单次攻击得到的对抗样本要更好一些
^Robust Bench https://robustbench.github.io/
^因为保存成图片这个级别的扰动基本就没有用了
^Tianyu Pang, Xiao Yang, Yinpeng Dong, Hang Su, Jun Zhu. Bag of Tricks for Adversarial Training. arXiv preprint 2020. arXiv:2010.00467 https://arxiv.org/abs/2010.00467

上述两篇论文PDF下载

后台回复：Tranformer鲁棒性，即可下载论文PDF

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF

CVer-Transformer交流群成立

扫码添加CVer助手，可申请加入CVer-Transformer 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加小助手微信，进交流群

▲点击上方卡片，关注CVer公众号

整理不易，请给CVer点赞和在看

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Transformer的稳健性更好吗？的相关文章

给定 3D 空间中的一条线，如何找到从它到一点的角度？

我在 3D 空间中有两组点我想画一条穿过两组点的中心的线然后找到从该线到每个点的角度从那里开始我将根据两个角度的接近程度来确定两组中的匹配点我知道如何找到每组点的中心只需将它们平均在一起并且我知道如何将它们匹配甚至考虑到它们
提取给定 2D 图像点、深度图和相机校准矩阵的 3D 坐标

我有一套2D image输出的关键点OpenCV FAST角点检测功能使用Asus Xtion I还有一个时间同步的深度图其中所有相机校准参数都是已知的使用这些信息我想提取一组3D坐标点云在OpenCV 任何人都可以给我任何有关如
3D 空间：使用鼠标指针沿着对象指向的方向

给定相机面向的方向的 3D 向量以及 3D 空间中 3D 对象的方位方向向量如何计算鼠标指针在屏幕上必须遵循的 2 维斜率以便在视觉上沿着所述物体的方向移动基本上我希望能够单击箭头并通过拖动它来使其前后移动但前提是鼠标指针沿着箭
点列表的 3D 轮廓（凹壳）

我有一个 C 中的 Vector3 点列表我需要计算这些点的凹轮廓确实有很多参考资料特别是对于凸分辨率由于格雷厄姆算法我已经成功实现了然而由于我现在需要有效地计算凹轮廓所以我迷失了维基百科确实列出了很多用于凸计算的资源
光线追踪三角形

我正在用java编写一个光线追踪器并且我能够追踪球体但我相信我追踪三角形的方式有问题据我了解这是基本算法首先确定射线是否与plane三角形已打开剪裁所有点使它们与三角形位于同一平面上因此xy以平面为例根据沿着新平面向任意方
颜色重新映射 - 使用 3D 网格匹配目标调色板？

假设我有颜色 FOO 它以 RGB 格式存储我需要重新着色 FOO 以便它与颜色列表中最接近的颜色匹配即时执行此操作我是否无法将每种颜色的 RGB 值视为 3D 网格上的点 r x g y b z 并计算点 FOO 与每个颜色点之间的
C++ Irrlicht 程序未链接：“未定义对‘__imp_createDevice’的引用”

我的 Irrlicht 程序无法链接我使用的编译器是g Code include
3D 数学：根据“向上”和“向上”正交向量计算倾斜（滚动）角度

我希望这是提出这个问题的正确位置和这个一样 https stackoverflow com questions 3035590 bank angle from up vector and look at vector 但表示为纯数学而不是图
如何知道一个点是否在复杂的 3D 形状内（.ply 文件）

我正在研究一个Java女巫项目真是要了我的命经过几天在不同论坛上的研究寻找我真正需要的东西我来寻求你的帮助我的数据 ply 文件包含由许多三角形组成的 3D 形状一个点 3D坐标我想知道这个点是否包含在复杂的 3D 形状内我
在球体边缘绘制点

因此来自 Flash 背景的我对一些简单的 2D 三角函数有很好的理解在带有 I 圆的二维中我知道使用给定角度和半径将项目放置在边缘上的数学 x cos a r y sin a r 现在如果我在 3d 空间中有一个点我知道球体的半
如何在不使用 Kinect SDK 函数的情况下将深度空间中的点转换为 Kinect 中的颜色空间？

我正在做一个增强现实应用程序将 3D 对象叠加在用户的彩色视频之上使用 Kinect 1 7 版本虚拟对象的渲染在 OpenGL 中完成我已经成功地在深度视频上叠加了 3D 对象只需使用 NuiSensor h 标头中深度相机的固
如何使用 matplotlib 将 3d 数据单位转换为显示单位？

这可能有点疯狂但我正在尝试使用 matplotlib v1 1 0 创建 3d 散点图的可点击图像图我已经阅读了如何对二维图进行操作参见这个博客 http hackmap blogspot com 2008 06 pylab matp
使用开源 3D 引擎从 Openstreetmap 数据渲染地图？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案从 Openstreetmap 数据渲染 3D 地图可能会很漂亮麻烦的 https gis stack
计算任意网格的平面 UV 坐标

我有从二维形状生成三角形网格的代码因为在大多数情况下这些形状在表面上的顶点分布不均匀所以我在生成 UV 时遇到了问题这样就不会导致纹理扭曲任何人都可以推荐一些讨论平面网格上 UV 计算技术的文章书籍代码示例吗谢谢好的让我
在 R 中绘制 3D 数据

我有一个 3D 数据集 data data frame x rep c 0 1 0 2 0 3 0 4 0 5 each 5 y rep c 1 2 3 4 5 5 data z runif 25 min data x data y 0 1
Java 的 3D 场景图库？

我正在寻找一个可靠的 Java 3D 场景图 API 它具有良好的文档活跃的社区和允许商业使用的许可证我排除了com sun scenegraph https scenegraph dev java net 因为它是 GPL 而且看起来
使用 vtk 给定一组点创建多条折线

我需要使用 vtk 和 paraview 显示 50 个粒子空间中的轨迹目前我的数据是pos x y t n 其中 n 是第 n 个粒子的标签我已将所有数据保存在 vtk 文件中该文件的组织方式如下 vtk DataFile Vers
3D 旋转 - 透视

public class MainActivity extends Activity LinearLayout rotator protected void onCreate Bundle savedInstanceState super
从相机视图中拖动锁定在一定距离/半径处的对象

我在场景中心有一个相机距离相机 z 400 处有 1 个球体其父级位于中心我想从视图中向上向下向左向右拖动球体但同时不改变它相对于中心的 z 位置我最终使用了另一个球体并使其不可见添加side THREE DoubleSi
透视变换矩阵的计算

给定 3D 空间中的一个点如何计算齐次坐标中的矩阵将该点投影到平面上z d 其中原点是投影中心好吧让我们尝试解决这个问题扩展伊曼纽尔的答案 Assuming如果您的视图向量直接沿着 Z 轴则所有尺寸都必须按视图平面距离的比例进行

随机推荐

华为天才少年谢凌曦分享了万字长文，阐述了关于视觉识别领域发展的个人观点...

作者谢凌曦编辑桃子报道新智元计算机视觉识别领域的发展如何华为天才少年谢凌曦分享了万字长文阐述了个人对其的看法最近我参加了几个高强度的学术活动包括CCF计算机视觉专委会的闭门研讨会和VALSE线下大会经过与其他学者的交
【软件分析/静态分析】学习笔记01——Introduction

课程链接李樾老师和谭天老师的南京大学软件分析课程01 Introduction 哔哩哔哩 bilibili 目录一静态程序分析介绍 1 1 PL and Static Analysis 程序语言和静态分析 1 2 为什么要学 S
HTTP学习（五）实体、编码

HTTP作为现在非常重要的协议需要仔细梳理一下本次学习知识点来自于 HTTP权威指南只是文中知识点罗列算是读书笔记请有兴趣的读者购买 HTTP权威指南完整阅读一实体每天都有数以亿计的各种媒体对象经由 HTTP 传送如图像
AMD CPU针脚弯曲无工具完美修好

b350m pro4 r7 3700 Q 电脑cpu针脚不小心弯了怎么办今天在清理机箱的时候把风扇取下来的时候 cpu连着风扇一起取下来了然后因为我的错误操作 cpu有一排针脚都弯曲对角针脚有四五跟接近45度弯曲见图解决工具针
TreeMap的应用

TreeMap的demo package dailyTest import java util Comparator import java util TreeMap author createtime 2023 9 12 19 56 pu
C# 学习笔记（四）数据类型

C 学习笔记四数据类型开篇语 C 都有哪些数据类型呢前面几次学习里我们已经遇到过的几种数据类型有 string 字符串类型 double 双精度类型抽象类型即Class类型具体的某个类在 C 中变量分为以下几种类型值类型
Transformer详解

Transformer 什么是transformer 为什么需要用transformer encoder sub encoder block multi head self attention FFN input decoder input
用Vue搭建一个大屏数据可视化页面实战一（Vue实战系列）

一从网上找一个喜欢的图 1 首先大屏要先解决屏幕适配的问题这里用viewport的方案使用postcss px to viewport插件在vue项目里新建postcss config js配置一下postcss px to vie
Python基础知识（九）：文件与文件系统

1 文件与文件系统打开文件 open file mode r buffering None encoding None errors None newline None closefd True Open file and return
等保2.0安全通用要求每级控制点统计

等保2 0安全通用要求每级控制点的变化如下表格
自动化测试项目实战经验附视频以及源码【商城项目，app项目，电商项目，银行项目，医药项目，金融项目】

最近收到许多自学自动化测试的小伙伴私信学习了理论知识后却没有合适的练手项目测试本身是一个技术岗位如果只知道理论没有实战经验在面试中很难说服面试官比如什么场景下需要添加显示等待什么时候元素定位可以写得更优雅如何做断言等这些
问题：TypeError: Descriptors cannot not be created directly.解决方法

运行代码时提示如下报错解决上面问题直接在控制台中输入下面命令重新安装protobuf即可如下 pip install protobuf 3 19 0 以上就是解决TypeError Descriptors cannot not be
2022-02-22每日刷题打卡

2022 02 22每日刷题打卡一本通动态规划 1268 例9 12 完全背包问题题目描述设有n种物品每种物品有一个重量及一个价值但每种物品的数量是无限的同时有一个背包最大载重量为M 今从n种物品中选取若干件同一种物品可以
【死磕 NIO】— 深入分析Buffer

大家好我是大明哥今天我们来看看 Buffer 上面几篇文章详细介绍了 IO 相关的一些基本概念如阻塞非阻塞同步异步的区别 Reactor 模式 Proactor 模式以下是这几篇文章的链接有兴趣的同学可以阅读下死磕NIO
前段上传组件介绍与实例

原文地址 http www cnblogs com 2050 p 3913184 html 仅作学习使用前端上传组件Plupload使用指南我之前写过一篇文章文件上传利器SWFUpload使用指南里面介绍了上传组件SWFUpload
GB/T28181-2016传输要求和Android平台设备接入技术实现

相关协议规范 GB T28181 2016公共安全视频监控联网系统信息传输交换控制技术要求相关的传输要求如下 5 1 网络传输协议要求联网系统网络层应支持IP协议传输层应支持 TCP和 UDP协议 5 2 媒体传输协议要求视音频
用一张图说一说 ChatGPT 内部技术工作流程

前沿这几天ChatGPT可谓是热火朝天很多同事和朋友都来找到勇哥说能不能说一说相关话题但是之前几天勇哥都在默默的干一件大事情今天终于成型有结果了所有就抽了点时间来和大家一起聊聊ChatGPT背后的技术让大家对一自然语言处理背
docker+fastdfs+springboot一键式搭建分布式文件服务器

首先说一下从零开始自己去搭一个fastdfs有多不顺搭起来步骤繁琐很麻烦后来看到有人把做好的docker镜像传出来了那搭建起来就很容易了有服务器的可以自己在服务器上玩玩没有的可以新建一个centos7 5虚拟机玩玩遇到虚拟机不
（待解决）0x00007FF7CECD5E7A 处有未经处理的异常(在 ImageWarp.exe 中): 0xC0000005: 写入位置 0x0000000000006080 时发生访问冲突。

0x00007FF7CECD5E7A 处有未经处理的异常在 ImageWarp exe 中 0xC0000005 写入位置 0x0000000000006080 时发生访问冲突不知道如何是好
Transformer的稳健性更好吗？

点击下方卡片关注 CVer 公众号 AI CV重磅干货第一时间送达本文作者 Greene 来源知乎已获作者授权 https zhuanlan zhihu com p 361105702 最近 Transformer 在计算机视觉遍

Transformer的稳健性更好吗？

参考

Transformer的稳健性更好吗？ 的相关文章

随机推荐

热门标签

Transformer的稳健性更好吗？的相关文章