深度学习经典网络:ShuffleNet 系列网络(ShuffleNet v1)

2023-11-05

ShuffleNet v1:http://openaccess.thecvf.com/content_cvpr_2018/html/Zhang_ShuffleNet_An_Extremely_CVPR_2018_paper.html
tensorflow代码:https://github.com/MG2033/ShuffleNet
pytorch代码:https://github.com/jaxony/ShuffleNet/blob/master/model.py

0. 前言

作者主要提出了两个创新性的模块:pointwise group convolutionchannel shuffle 两个创新性的模块, 来进一步提升轻量级网络的效率。通常,在现有大型网络Xception和ResNet中为了减少计算量,会采用大量的1×1卷积操作,但是如果直接将1×1的卷积运用到小网络中会存在一些问题,像MobileNet 中1×1卷积的计算量占了绝大多数,因此作者提出来pointwise group convolution 来减少计算量。在分组卷积的过程中,当前分组的卷积会只与当前分组的输入有关,各组之间的信息会没有交流,因此作者提出来channel shuffle 操作, 将不同分组的信息在一定程度上进行混合。

1. channel shuffle for group convolution

目前像ResNeXt网络只是在3×3卷积的部分运用到了分组卷积,而当中pointwise convolution占了93.4%的MAdd, 所以一个直观的想法是对pointwise convolution也采用分组卷积。但这样会使但前输出的每一部分只与对应一小部分的输入有关,如图1(a)所示,这种特性会阻止各个分组之间信息流的相互传递,会减弱网络的表达能力。
在这里插入图片描述

图 1 channel shuffle 示意
如果我们在进行分组卷积时从不同的输入分组中获得数据,那么上述问题就可减轻,如 图1(b)所示,将卷积通道划分为不同的分组,然后对于下一层的每个分组,从不同的子分组中的数据分别获得。这可以利用图1(c)所示的**channel shuffle** 操作实现,即先将输出通道reshape成(g, m), 然后对后两个维度取转置(m, g),最后flatten成原来的形状,作为下一层的输入。关于对该过程的理解可以参考图2。

在这里插入图片描述

图 2 channel shuffle 理解

2. Shuffle Unit

在这里插入图片描述

图 3 ShuffleNet 单元
ShuffleNet Unit的结构比较清晰,借鉴ResNet的残差单元,首先参考Xception, 将3×3卷积换成depthwise convolution, 如图3(a). 之后将两个1×1卷积替换成pointwise group convolution, 值得注意的是作者参考Xception, 没有在depthwise convolution 后面加BN层, 如图3(b)。对于步长为2的模块,结构如图3(c), 主要做了两点改变,一是在shortcut分支增加3×3的average pooling, 二是将原来的Add操作替换成Concatenate,用少量计算量的增加扩大channel维度。

采用Shuffle Unit 可以大大减少计算量,例如:给定输入大小 c × h × w c \times h \times w c×h×w,通道数为c。对于的bottleneck通道为m:

  • ResNet: h w ( 2 c m + 9 m 2 ) F L O P s h w\left(2 c m+9 m^{2}\right) F L O P s hw(2cm+9m2)FLOPs
  • ResNeXt: h w ( 2 c m + 9 m 2 / g ) F L O P s h w\left(2 c m+9 m^{2} / g\right)F L O P s hw(2cm+9m2/g)FLOPs
  • ShuffleNet: h w ( 2 c m / g + 9 m ) F L O P s h w(2 c m / g+9 m)F L O P s hw(2cm/g+9m)FLOPs 深度分离卷积:m=g

换句话说,在一定的计算量的前提下,ShuffeNet Unit可以拓宽网络的宽度。而这对于提升网络的性能是十分关键的。

3. ShuffleNet v1

在这里插入图片描述

  • 每个阶段的第一个block的步长为2,下一阶段的通道翻倍
  • 每个阶段内的除步长其他超参数保持不变
  • 每个ShuffleNet unit的bottleneck通道数为输出的1/4(和ResNet设置一致)
  • 为保证模型FLOPs基本一致,当分组g增大时,相应的channel也会增大
  • 可以简单的使用放缩因子s控制通道数,ShuffleNet s × s× s×即表示通道数放缩到s倍。

4. Experiments

Pointwise Group Convolutions
在这里插入图片描述
结论:

  • 有分组卷积的一致比没有组卷积(g=1)的效果要好。分组卷积可允许获得更多通道的信息,我们假设性能的收益源于更宽的特征映射,这帮助我们编码更多信息。并且,较小的模型的特征映射通道更少,这意味着能多的从特征映射上获取收益。
  • 对于一些模型(例如0.5×),随着g增大,性能上有所下降。意味组数增加,每个卷积滤波器的输入通道越来越少,损害了模型表示能力。
  • 对于小型的ShuffleNet 0.25×,组数越大性能越好,这表明对于小模型更宽的特征映射更有效。

Channel Shuffle vs. No Shuffle
在这里插入图片描述在三个不同复杂度下带Shuffle的都表现出更优异的性能.

Comparison with Other Structure Units
在这里插入图片描述可以看到ShuffleNet的表现是比较出色的。有趣的是,我们发现特征映射通道和精度之间是存在直观上的关系,以38MFLOPs为例,VGG-like, ResNet, ResNeXt, Xception-like, ShuffleNet模型在阶段4上的输出通道为50, 192, 192, 288, 576,这是和精度的变化趋势是一致的。我们可以在给定的预算中使用更多的通道,通常可以获得更好的性能。

Comparison with MobileNets and Other Frameworks
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习经典网络:ShuffleNet 系列网络(ShuffleNet v1) 的相关文章

  • 深度学习之图像的数据增强

    在图像的深度学习中 为了丰富图像训练集 更好的提取图像特征 泛化模型 防止模型过拟合 一般都会对数据图像进行数据增强 数据增强 常用的方式 就是旋转图像 剪切图像 改变图像色差 扭曲图像特征 改变图像尺寸大小 增强图像噪音 一般使用高斯噪音
  • 【生成式网络】入门篇(二):GAN的 代码和结果记录

    GAN非常经典 我就不介绍具体原理了 直接上代码 感兴趣的可以阅读 里面有更多变体 https github com rasbt deeplearning models tree master pytorch ipynb gan GAN 在
  • 网络安全中机器学习大合集

    目录 数据集 论文 书籍 演讲 教程 课程 杂项 数据集 安全相关数据样本集 DARPA 入侵检测数据集 Stratosphere IPS 数据集 开放数据集 NSA 的数据捕获 ADFA 入侵检测数据集 NSL KDD 数据集 恶意 UR
  • 输入文本就可建模渲染了?!OpenAI祭出120亿参数魔法模型!

    转自 https new qq com omn 20210111 20210111A0CBRD00 html 2021刚刚开启 OpenAI又来放大招了 能写小说 哲学语录的GPT 3已经不足为奇 那就来一个多模态 图像版GPT 3 今天
  • tiny-cnn执行过程分析(MNIST)

    在http blog csdn net fengbingchun article details 50573841中以MNIST为例对tiny cnn的使用进行了介绍 下面对其执行过程进行分析 支持两种损失函数 1 mean squared
  • word2vector学习笔记(一)

    word2vector学习笔记 一 最近研究了一下google的开源项目word2vector http code google com p word2vec 其实这玩意算是神经网络在文本挖掘的一项成功应用 本文是看了论文 Distribu
  • 图神经网络(1):图卷积神经网络GCN ICLR 2017

    图卷积神经网络GCN ICLR 2017 是曾经在美国加州大学UCI教授 现在荷兰阿姆斯特丹大学教授 Max Welling团队的大作 Max是图灵奖获得者Hinton的弟子 第一作者T N Kipf已经成为这个领域有名的学者和工程师 如果
  • 深度学习论文:Deep Residual Learning for Image Recognition

    论文 He Kaiming et al Deep residual learning for image recognition Proceedings of the IEEE conference on computer vision a
  • 联邦学习 深度学习对抗攻击

    联邦学习本身 联邦学习 实际上是一种加密的分布式机器学习技术 参与各方可以在不披露底层数据和底层数据的加密 混淆 形态的前提下共建模型 如果机构之间的数据无法互通 一家企业一家机构数据量有限 或者是少数巨头公司垄断大量数据 而小公司很难获得
  • libsvm库简介及使用

    libsvm是基于支持向量机 support vector machine SVM 实现的开源库 由台湾大学林智仁 Chih Jen Lin 教授等开发 它主要用于分类 支持二分类和多分类 和回归 它的License是BSD 3 Claus
  • Tensorflow错误InvalidArgumentError see above for traceback): No OpKernel was registered to support Op

    调用tensorflow gpu运行错误 错误信息如下 2023 06 21 15 36 14 007389 I tensorflow core platform cpu feature guard cc 141 Your CPU supp
  • Dilated Conv and Deformable Conv. 空洞卷积和可变形卷积

    空洞卷积论文地址 https arxiv org pdf 1511 07122 pdf 可变形卷积论文地址 https arxiv org pdf 1703 06211 pdf 之前一直知道这两个方法 一直没时间看论文和实现 后面碰到越来越
  • 深度学习中的验证集和超参数简介

    大多数机器学习算法都有超参数 可以设置来控制算法行为 超参数的值不是通过学习算法本身学习出来的 尽管我们可以设计一个嵌套的学习过程 一个学习算法为另一个学习算法学出最优超参数 在多项式回归示例中 有一个超参数 多项式的次数 作为容量超参数
  • 词向量的运算与Emoji生成器

    本文参考参考 没有对框架内容进行学习 旨在学习思路和方法 1 词向量运算 之前学习RNN和LSTM的时候 输入的语句都是一个向量 比如恐龙的名字那个例子就是将一个单词中的字母按顺序依次输入 这对于一个单词的预测是可行的 但是对于想让机器学习
  • 16个车辆信息检测数据集收集汇总(简介及链接)

    16个车辆信息检测数据集收集汇总 简介及链接 目录 1 UA DETRAC 2 BDD100K 自动驾驶数据集 3 综合汽车 CompCars 数据集 4 Stanford Cars Dataset 5 OpenData V11 0 车辆重
  • PyTorch训练简单的全连接神经网络:手写数字识别

    文章目录 pytorch 神经网络训练demo 输出结果 来源 pytorch 神经网络训练demo 数据集 MNIST 该数据集的内容是手写数字识别 其分为两部分 分别含有60000张训练图片和10000张测试图片 神经网络 全连接网络
  • Matting(抠图)--用深度学习自动去除照片背景

    转自 https zhuanlan zhihu com p 38031181 https zhuanlan zhihu com p 151212267 现在又有一个 AI 能干 Photoshop 的活了 自动抠图 一键去除照片背景 这款
  • SqueezeNet运用到Faster RCNN进行目标检测+OHEM

    目录 目录 一SqueezeNet介绍 MOTIVATION FIRE MODULE ARCHITECTURE EVALUATION 二SqueezeNet与Faster RCNN结合 三SqueezeNetFaster RCNNOHEM
  • cifar数据集介绍及到图像转换的实现

    CIFAR是一个用于普通物体识别的数据集 CIFAR数据集分为两种 CIFAR 10和CIFAR 100 The CIFAR 10 and CIFAR 100 are labeled subsets of the 80 million ti
  • yolov5量化部署(基于openvino和tensorrt)

    yolov5 openvino量化部署 首先 下载YOLOv5源码 安装YOLOv5和OpenVINO的python依赖 git clone https github com ultralytics yolov5 git pip insta

随机推荐

  • Java基本知识之运算符

    算数运算符 注意一下这个 运算类型 结果 a 2 b a a 3 b 3 a 3 b a a 3 b 2 数字 先自增1 后运算 数字 先运算 后自增1 public class Hello public static void main
  • 一文带你了解Flutter如何内存优化

    在Flutter应用程序中 优化内存管理是提高应用程序性能和稳定性的关键 本文介绍了如何优化Flutter应用程序的内存管理 包括理解Flutter的内存管理机制 使用内存分析工具 减少不必要的对象创建 优化图片加载 避免使用过多的动画和效
  • MySQL组合索引提升查询速度实战

    1 问题描述 生产环境后台管理查询司机钱包汇总列表及统计所有司机钱包收入和支出金额 不管是查询一天还是一个月的速度都比较慢 经常会超时 超过两分钟未响应结果 2 问题排查 通过排查发现查询时的两张表数据时间字段均是以日期为单位 而每张表中的
  • 智能机器人教具法则

    对于智能机器人教育 国内政策不断落地 新生代父母增加 教育理念和教育水平提高 儿童综合素质培养的关注度越来越高 在教育观念升级的环境下 相比于被电子屏幕占据大部分的时间 格物斯坦希望为孩子们找到游戏和教育之间的平衡点 所以 寓教于乐 逐渐成
  • 【软件工程基础复习整理】第三章项目计划(1)概述与风险分析

    软件项目计划 一年之计在于春 一日之计在于寅 增广贤文 谋于前才可捕获于后 临大事而不乱 苏轼 如果软件项目值得开发 能够开发 我们要制定项目计划 对资源成本框架进行合理的调度 软件项目的失败大多数是因为计划不周引起的 计划对项目的成败有关
  • 1200*A. You‘re Given a String...(枚举)

    include
  • 安卓前端 UI框架

    框架大全 http www oschina net project tag 342 android ui 前言 忙碌的工作终于可以停息一段时间了 最近突然有一个想法 就是自己写一个app 所以找了一些合适开源控件 这样更加省时 再此分享给大
  • JSch-用java实现服务器远程操作

    介绍 前段时间接了一个比较特殊的需求 需要做一个用于部署服务的服务 主要是将一个k8s服务集群部署到远端的服务器上 具体服务器的连接信息会通过接口传入 本来部署是人工来完成的 无非是将一些必须的文件scp到目标服务器上 然后ssh远程登录
  • ubuntu c语言头文件,Ubuntu找不到stdio.h等头文件_安装c库_build-essential安装失败解决...

    最近安装的Ubuntu1804系统 vim gcc都是现安的 用gcc编译时出现找不到头文件情况 于是百度 原来linux类的操作系统上面开发程序 光有了gcc 是不行的 它还需要一个 build essentia 作用是提供编译程序必须软
  • 【无标题】torch.optim.SGD参数详解

    torch optim SGD是PyTorch中实现的Stochastic Gradient Descent SGD 优化器 用于更新神经网络中的参数 以最小化损失函数 从而提高模型的精度 它的一些重要参数如下 lr 学习率 learnin
  • office文档图标显示不正常

    一直用Office2013 前几天用到WPS一个功能 用完后就卸载了 结果电脑中的office文档图标 word excel ppt等 都显示异常 网上查找好久解决了 网址如下 https jingyan baidu com article
  • target_link_libraries 和link_libraries区别

    TARGET LINK LIBRARIES 设置要链接的库文件的名称 语法 TARGET LINK LIBRARIES targetlibrary1
  • 数据结构--并查集

    并查集适用情况 1 有时候 并不关心数据之间的前后关系 也不关心数据的层次关系 一些确定元素只是单纯的聚集在一起 这样的元素聚集集合被称为集合 当希望知道某个数据是否存在一个集合中 或者两个元素是否在同一个集合中时 就需要使用一些集合数据结
  • windows 安装NVM 出现版本切换不成功 问题解决与分析

    1 安装nvm的时候要去删除默认目录下C Program Files nodejs的文件夹 安装完成后也要去检查这个文件夹是不是存在 2 配置环境变量 对应第一步的 2 使用nvm install 版本号 如果能成功下载node 注意说的成
  • FFmpeg部署及操作指南

    什么是FFmpeg FFmpeg是一个开源的跨平台音视频处理工具集 可以用于处理 转换 编辑和流媒体音视频文件 它提供了一组强大的命令行工具 可以实现音视频的解码 编码 封装 过滤 转码等功能 FFmpeg的功能 FFmpeg的功能非常多
  • matlab分类算法函数,MATLAB分类与预测算法函数

    1 glmfit 功能 构建一个广义线性回归模型 使用格式 b glmfit X y distr 根据属性数据X以及每个记录对应的类别数据y构建一个线性回归模型 distr可取值为 binomial gamma inverse gaussi
  • C#系列之值类型与引用类型

    目录 1 变量类型的复习 2 值类型和引用类型的区别 1 变量类型的复习 无符号整形 byte b 1 ushort us 1 uint ui 1 ulong ul 1 有符号整形 sbyte sb 1 short s 1 int i 1
  • LINUX下更改字符编码方式-增加GB2312

    修改local文件 sudo gedit var lib locales supported d local 添加zh CN GB2312字符集 如下 en US UTF 8 UTF 8 zh CN UTF 8 UTF 8 zh CN GB
  • 推荐几个 VS Code 扩展、主题和字体

    前言 工欲善其事 必先利其器 VS Code 作为当前最流行的开源代码编辑器之一 要说它为什么这么受大众喜爱 我觉得一是它现代化的界面 二是它强大的扩展系统 得益于 VS Code 的扩展系统 我们可以给编辑器加上各种 Buff 让它变成自
  • 深度学习经典网络:ShuffleNet 系列网络(ShuffleNet v1)

    ShuffleNet v1 http openaccess thecvf com content cvpr 2018 html Zhang ShuffleNet An Extremely CVPR 2018 paper html tenso