dropout层

2023-11-15

深度神经网（DNN）中经常会存在一个常见的问题：模型只学会在训练集上分类（过拟合现象），dropout就是为了减少过拟合而研究出的一种方法。

一、简介

当训练模型较大，而训练数据很少的话，很容易引起过拟合，一般情况我们会想到用正则化、或者减小网络规模。然而Hinton在2012年文献：《Improving neural networks by preventing co-adaptation of feature detectors》提出了，在每次训练的时候，随机让一定数量的卷积停止工作，这样可以提高网络的泛化能力，Hinton又把它称之为dropout。
dropout是指深度学习训练过程中，对于神经网络训练单元，暂时将按照一定的概率将其从网络中移除，注意是暂时，对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。
其工作原理如下图：在这里插入图片描述
第一种理解方式是，在每次训练的时候使用dropout，每个神经元有百分之50的概率被移除，这样可以使得一个神经元的训练不依赖于另外一个神经元，同样也就使得特征之间的协同作用被减弱。Hinton认为，过拟合可以通过阻止某些特征的协同作用来缓解。
第二种理解方式是，我们可以把dropout当做一种多模型效果平均的方式。对于减少测试集中的错误，我们可以将多个不同神经网络的预测结果取平均，而因为dropout的随机性，我们每次dropout后，网络模型都可以看成是一个不同结构的神经网络，而此时要训练的参数数目却是不变的，这就解脱了训练多个独立的不同神经网络的时耗问题。在测试输出的时候，将输出权重除以二，从而达到类似平均的效果。

需要注意的是如果采用dropout，训练时间大大延长，但是对测试阶段没影响。

二、dropout数学原理

目前来说，Dropout有两种。第一种就是传统的Dropout方案。另一种，就是我们的吴恩达老师的Inverted Dropout。

1、Inverted Dropout

Inverted Dropout的实现代码，假设，我们的输入是x，p表示随机丢弃的概率, 1−p表示的是神经元保存的概率。则Inverted Dropout的实现过程如下代码所示：

import numpy as np
def dropout(x, p):
    if p < 0. or p >1.
        # 边界条件，在写代码的时候，一定要仔细！！！p为随机丢弃的概率
        raise Exception("The p must be in interval [0, 1]")
    retain_prob =1. -p
    #我们通过binomial函数，生成与x一样的维数向量。
    # binomial函数就像抛硬币一样，每个神经元扔一次，所以n=1
    # sample为生成的一个0与1构成的mask,0表示抛弃，1表示保留
    sample =np.random.binomial(n=1, p=retain_prob, size=x.shape)
    x *= sample # 与0相乘，表示将该神经元Drop掉
    x /= retain_prob
    return x

这里解释下，为什么在后面还需要进行 x/=retain_prob 的操作？

假设该层是输入，它的期望是a，在不使用Dropout的时候，它的期望依旧是a。如果该层进行了Dropout, 相当于有p的概率被丢弃，1−p的概率被保留，则此层的期望为 ( 1 − p ) ∗ a ∗ 1 + p ∗ a ∗ 0 = ( 1 − p ) ∗ a (1−p)∗a∗1+p∗a∗0=(1−p)∗a (1−p)∗a∗1+p∗a∗0=(1−p)∗a,为了保证输入与输出的期望一致，我们需要进行代码中x/=retain_prob这一步。

二、传统Dropout

对于传统的Dropout，在训练的时候，不需要进行x/=retain_prob的这一步，直接进行神经元Drop操作。此时，假设输入x的期望是a，则此时的输出期望为(1−p)∗a。在测试的时候，整个神经元是保留的，因此输出期望为a。为了让输入与输出的期望一致，则在测试的阶段，需要乘以(1−p),使其期望值保持(1−p)∗a。
传统的dropout和Inverted-dropout虽然在具体实现步骤上有一些不同，但从数学原理上来看，其正则化功能是相同的，那么为什么现在大家都用Inverted-dropout了呢？主要是有两点原因：

1、测试阶段的模型性能很重要，特别是对于上线的产品，模型已经训练好了，只要执行测试阶段的推断过程，那对于用户来说，推断越快用户体验就越好了，而Inverted-dropout把保持期望一致的关键步骤转移到了训练阶段，节省了测试阶段的步骤，提升了速度。
2、dropout方法里的p是一个可能需要调节的超参数，用Inverted-dropout的情况下，当你要改变p 的时候，只需要修改训练阶段的代码，而测试阶段的推断代码没有用到p ，就不需要修改了，降低了写错代码的概率。

三、DropConnect

DropOut的出发点是直接干掉部分神经元节点，我们能不能不干掉神经元，我们把网络权值干掉部分呢？DropConnect干掉的就是网络权重。具体细节如下：
在这里插入图片描述

针对二维卷积核进行DropConnect操作：

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn.modules.conv import _ConvNd,_pair

class DropConnectConv2D(_ConvNd):
    def __init__(self, in_channels, out_channels, kernel_size, stride=1,
                 padding=0, dilation=1, groups=1,
                 bias=True, padding_mode='zeros', p=0.5):
        kernel_size = _pair(kernel_size)
        stride = _pair(stride)
        padding = _pair(padding)
        dilation = _pair(dilation)
        super(DropConnectConv2D, self).__init__(
            in_channels, out_channels, kernel_size, stride, padding, dilation,
            False, _pair(0), groups, bias, padding_mode)
        self.dropout = nn.Dropout(p)
        self.p = p

    def _conv_forward(self, input, weight):
        if self.padding_mode != 'zeros':
            return F.conv2d(F.pad(input, self._reversed_padding_repeated_twice, mode=self.padding_mode),
                            weight, self.bias, self.stride,
                            _pair(0), self.dilation, self.groups)
        return F.conv2d(input, weight, self.bias, self.stride,
                        self.padding, self.dilation, self.groups)

    def forward(self, input):
        return self._conv_forward(input, self.dropout(self.weight) * self.p)

if __name__=='__main__':
    conv = DropConnectConv2D(1,1,3,1,bias=False).train()
    conv.weight.data = torch.ones_like(conv.weight)

    a = torch.ones([1,1,3,3])
    print(a)
    print(conv(a))

四、Stochastic Depth

StochasticDepth是采取类似于Dropout的思路，在ResNet块上随机进行对模块的删除，进而提高对模型的泛化能力。
如图所示，为Stochastic Depth的具体做法。
在这里插入图片描述

五、Cutout

目前为主，丢的主要是权重，或者是丢的是神经元。这里开始，我们要丢的是是网络的输入，当然网络输入不仅仅可以丢，也可以添加噪声(Cutmix等)，这个是后面要做的内容。当然，还有一些对于输入图像进行Drop的操作(如random erase)。
图像上进行随机位置和一定大小的patch进行0−mask裁剪。一开始使用裁剪上采样等变换出复杂轮廓的patch后来发现简单的固定像素patch就可以达到不错的效果，所以直接采用正方形patch。
通过patch的遮盖可以让网络学习到遮挡的特征。Cutout不仅能够让模型学习到如何辨别他们，同时还能更好地结合上下文从而关注一些局部次要的特征。

如下图：
在这里插入图片描述

六、DropBlock

七、Dropout与BN不和谐共处

假设我们的输入tensor的维度是(4,3,2,2),那么我们在做BN的时候，我们在channel维度中“抽”出来一个通道的数据，则其维度为(4,1,2,2)。我们需要对这16个数据求均值μ 跟方差σ，并用求得的均值与方差归一化，再缩放数据，得到BN层的输出。

Dropout在网络测试的时候神经元会产生“variance shift”，即“方差偏移”。试想若有图一中的神经响应X，当网络从训练转为测试时，Dropout 可以通过其随机失活保留率（即p）来缩放响应，并在学习中改变神经元的方差，而BN仍然维持X的统计滑动方差(varrunning_var)。这种方差不匹配可能导致数值不稳定。而随着网络越来越深，最终预测的数值偏差可能会累计，从而降低系统的性能。事实上，如果没有Dropout，那么实际前馈中的神经元方差将与BN 所累计的滑动方差非常接近，这也保证了其较高的测试准确率。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

dropout层的相关文章

Linux下编辑文件并保存

第一步 cd到该文件的目录下第二步 vi 要编辑的文件名进入普通模式可以查看文件内容第三步输入 i 进入编辑模式开始编辑文本第四步编辑之后按ESC退出到普通模式第五步在普通模式下输入进入命令模式第六步在命令模式
ADCS攻击利用

ADCS攻击利用个人公众号创世信安一 ADCS相关介绍 1 ADCS AD CS证书服务 SSL证书可以部署企业根或者独立根建立SSL加密通道和其他服务证书的区别在于加密强度本次利用的漏洞产生的原因是ADCS支持的服务器角色功能错
spring-boot整合基本jdbc（基于oracle数据库）

点击有惊喜 https mp weixin qq com s 2My JPTIaF02w70J CRM4A 快速搭建一个web工程搭建完一个web工程要想连接上oracle数据库还得进行以下操作 1 在pom xml中引入jdbc连接
奋斗的人生很精彩

奋斗是人生道路上永恒的主题它意味着不懈的努力不断的追求以及对梦想的执着追求在我们的人生旅途中每个人都有自己的目标和梦想有些人梦想成为一名成功的商人有些人希望成为一名伟大的科学家而有些人则渴望成为一名杰出的艺术家无论我们的

随机推荐

Linux下线程池的代码

此博客仅为了存放代码 Linux 加锁线程池头文件 include
在jupyter Notebook上绘制动态曲线

在jupyter Notebook上绘制动态曲线 1 前言 2 实现原理 3 实现源码 1 前言在上一篇文章中介绍了在如Pycharm VsCode IDEA等非交互式编程软件中绘制动态曲线的实现原理那么问题来了在如jupyter
Empowering Language Models with Knowledge Graph Reasoning for Open-Domain Question Answering

本文是LLM系列文章针对 Empowering Language Models with Knowledge Graph Reasoning for Open Domain Question Answering 的翻译用知识图谱推理增强
flask入门

一 falsk简介 Flask是一个使用 Python 编写的轻量级 Web 应用框架其 WSGI 工具箱采用 Werkzeug 模板引擎则使用 Jinja2 Flask使用 BSD 授权 Flask是一个轻量级的可定制框架使用Pyth
树莓派4B-使用 RPI.GPIO 模块的脉宽调制（PWM）功能

脉宽调制 PWM 是指用微处理器的数字输出来对模拟电路进行控制是一种对模拟信号电平进行数字编码的方法在树莓派上可以通过对GPIO的编程来实现PWM 创建一个 PWM 实例 1 p GPIO PWM channel frequency
sonar 配置sonarqube分析unity中的C# 代码

参考文档使用SonarQube对Unity项目进行代码分析的问题记录 zerozabuu 博客园一文搞定 SonarQube 接入 C NET 代码质量分析狂师博客园需要分析的代码是unity下的C 代码配置流程主要参考上面两个
React hook 判断语句内不能使用useEffect（乱序问题）

const Parent gt const count setCount useState 0 如果这样写控制台会报错原因继续往下看 if count gt 1 useEffect gt console log 大于1
win7可关闭服务

Adaptive brightness 如果你没有使用触摸屏一类的智能调节屏幕亮度的设备该功能就可以放心禁用 ApplicationLayer Gateway Service 为Internet连接共享提供第三方协议插件的支持 Appli
数码管时钟显示按键控制 fpga实现

目录原理实现原理数码管原理并且该数码管是共阳极所以段选低电平有效片选低电平有效段选共用8个引脚实现思路分三个模块实现 1 按键消抖按键消抖 2 计数器模块产生需要的时钟信号数据 3 数码管驱动将输入的数据转换为段
BIG Endian 和 Little Endian(small endian)模式的区别

BIG Endian 和 Little Endian small endian 模式的区别谈到字节序的问题必然牵涉到两大CPU派系那就是Motorola的PowerPC系列CPU和Intel的x86系列CPU PowerPC系列采用b
QT 打开指定目录并选中指定文件

目录方法一使用Qt自带的方法方法二使用windows自带工具有时自动生成文件之后点击某个按钮我们希望能够自动跳转到文件所在目录打开之后不依附于运行程序可能还需要选中该文件环境 win10 Qt5 9 6 MinGW 方法一
江苏大学计算机学院林琳,计算机学院教师岗副高及以下、其它专技中级及以下人员岗位聘用结果公示...

副教授五级 6人按姓名拼音排序下同毕建良李峰林庆毛启容王良民朱利平副教授六级 14人陈伟鹤韩飞李莉李星毅潘雨青钱少先王洪金熊书明杨利霞曾兰玲赵念强周从华朱小龙邹志文副教授七级 13人蔡涛陈
Docker启动一个Centos镜像

搜索可用的centos的docker镜像 docker search
第三届国际金融科技论坛开幕，神州信息专家参与蓉城“论道”

10月30日至31日由西南财经大学加州大学伯利克分校国际风险数据分析联盟成都市地方金融监督管理局联合主办的第三届国际金融科技论坛 SWUFE CDAR 2020 在成都举行神州信息金融战略本部副总裁潘志江神州信息金融科技首席风控
google 图片下载

def xia url headers headers user agent Mozilla 5 0 Windows NT 10 0 WOW64 AppleWebKit 537 36 KHTML like Gecko Chrome 78 0
Cadence 17.4 使用TIPS： Orcad 输出PDF

首先File gt Export gt PDF PDF Export 设置页面其中有4个输出工具供选择此处我选择第一个Acrobat Distiller 这个是电脑里安装了咱们常用的Adobe Acrobat DC 就会自带的程序如果
线性分组码最小汉明距离_信息与编码系列（六）线性码~线性代数

目录序线性码的矩阵描述线性码的等价性线性码的最小距离标准数组 Standard Array 校验子解码 Syndrome Decoding 序这篇文章相当于做一篇索引将线性代数的东西和线性码对应起来方便日后出现问题能够快速
jsp调用服务器上的其他程序（C程序)

String area dz String req getParameter area String id dz String req getParameter id String ip 10 xxx x xx String encodeS
SAM-DETR学习笔记Accelerating DETR Convergence via Semantic-Aligned Matching

Abstract 最近开发的DEtection TRansformer DETR 通过消除一系列手工制作的组件建立了一个新的对象检测范式然而 DETR的收敛速度非常慢这大大增加了培训成本我们观察到慢收敛主要归因于在不同特征嵌入空间
dropout层

深度神经网 DNN 中经常会存在一个常见的问题模型只学会在训练集上分类过拟合现象 dropout就是为了减少过拟合而研究出的一种方法一简介当训练模型较大而训练数据很少的话很容易引起过拟合一般情况我们会想到用正则化或者减小网