卷积核的基本概况

2023-12-05

一、什么是卷积核?

在数学上,卷积核的标准定义是 两个函数在反转和移位后的乘积的积分:

其中,函数g一般称为 过滤器(filters) ,函数f指的是 信号/图像 。在卷积神经网络里,卷积核其实就是一个过滤器,但在深度学习里,它不做反转,而是直接 执行逐 元素的乘法和加法,我们把这个又称为 互相关 ,在深度学习里称为 卷积。

那为什么在图像处理上,需要进行卷积处理呢。实际上是借鉴于科学家的研究结果——上个世纪科学家就发现,视觉皮层的很多神经元都有一个小的局部感受野,神经元只对有限区域的感受野上的刺激物做出反应。不同的感受野可以重叠,他们共同铺满整个视野。并且发现,一些神经元仅仅对横线有反应,有一些神经元对其他方向的线条有反应,有些神经元的感受野比较大。因此,高级别的神经元的刺激是源于相邻低级别神经元的反应。

利用这个观点,经过不断的努力,逐渐发展成了现在的卷积神经网络。 通过卷积核提取图像的局部特征 ,生成一个个神经元,再经过深层的连接,就构建出了卷积神经网络。

我们已经知道,一个卷积核一般包括 核大小(Kernel Size) 步长(Stride) 以及 填充步数(Padding) ,我们逐一解释下。

卷积核大小 :卷积核定义了卷积的大小范围,在网络中代表 感受野的大小 ,二维卷积核最常见的就是 3*3 的卷积核。一般情况下,卷积核越大,感受野越大,看到的图片信息越多,所获得的全局特征越好。但大的卷积核会导致计算量的暴增,计算性能也会降低。

步长 :卷积核的步长代表提取的精度, 步长定义了当卷积核在图像上面进行卷积操作的时候,每次卷积跨越的长度。对于size为2的卷积核,如果step为1,那么相邻步感受野之间就会有重复区域;如果step为2,那么相邻感受野不会重复,也不会有覆盖不到的地方;如果step为3,那么相邻步感受野之间会有一道大小为1颗像素的缝隙,从某种程度来说,这样就遗漏了原图的信息。

填充 :卷积核与图像尺寸不匹配,会造成了卷积后的图片和卷积前的图片尺寸不一致,为了避免这种情况,需要先对原始图片做边界填充处理。

二、卷积的通道形式

所谓的通道数,可以理解为 有多少张二维矩阵图

  • 单通道形式

对于具有1个通道的图像,下图演示了卷积的运算形式:

这里的filter是一个3*3矩阵,步长是1,填充为0。filter在输入数据中滑动。在每个位置,它都在进行逐元素的乘法和加法。每个滑动位置以一个数字结尾,最终输出为3 x 3矩阵。

  • 多通道形式

多通道也很容易理解,最典型的就是处理彩色图片,一般有三个通道(RGB)。实际上,一个filter也可以包含多个矩阵,也即kernels,比如一个包含三个kernels的filter,对于输入是三个通道的图像:

这里输入层是一个5 x 5 x 3矩阵,有3个通道,filters是3 x 3 x 3矩阵。首先,filters中的每个kernels分别应用于输入层中的三个通道,执行三次卷积,产生3个尺寸为3×3的通道。

然后,将这三个通道相加(逐个元素相加)以形成一个单个通道(3 x 3 x 1),该通道是使用filters(3 x 3 x 3矩阵)对输入层(5 x 5 x 3矩阵)进行卷积的结果:

由此,我们引出卷积核的另外一个参数—— 输入输出通道数。

输入和输出通道数 :卷积核的输入通道数由输入矩阵的通道数所决定(输入深度);输出矩阵的通道数由卷积核的输出通道数(卷积层深度,即多少个filters)所决定。

三、2D卷积和3D卷积

上面的多通道过程解释的详细点:

假设输入层有 Din 个通道,而想让输出层的通道数量变成 Dout,我们需要做的仅仅是将 Dout个filters应用到输入层中。每一个filters都有Din个卷积核,都提供一个输出通道。在应用Dout个filters后,Dout个通道可以共同组成一个输出层。

我们把上面的卷积过程称为 2D-卷积—— 通过使用Dout个filters,将深度为Din的层映射为另一个深度为Dout的层。

进一步,我们给出2D-卷积的公式:

特别的,对于卷积核,如果w=h=1,那么就退化为1*1卷积核,它具有以下三个优点:

  • 降维以实现高效计算

  • 高效的低维嵌入特征池

  • 卷积后再次应用非线性

下图是一个例子:

在一个维度为 H x W x D 的输入层上经过大小为 1 x 1 x D 的filters的 1 x 1 卷积,输出通道的维度为 H x W x 1。如果我们执行 N 次这样的 1 x 1 卷积,然后将这些结果结合起来,我们能得到一个维度为 H x W x N 的输出层。

通过将2D-卷积的推广,在 3D-卷积 定义为 filters的深度小于输入层的深度(即卷积核的个数小于输入层通道数)

因此,3D-filters需要在三个维度上滑动(输入层的长、宽、高)。在filters上滑动的每个位置执行一次卷积操作,得到一个数值。当filters滑过整个3D空间,输出的结构也是3D的:

四、卷积核的种类

  • 转置卷积

一般正常卷积称为下采样,相反方向的转换称为上采样。 转置卷积是相对正常卷积的相反操作,但它只恢复尺寸 ,因为卷积是一个不可逆操作。下面通过一个例子来说明转置卷积的具体操作过程。

假设一个3*3的卷积核,其输入矩阵是4*4的形状,经过步长为1,填充为0的卷积结果为:

转置卷积过程为,第一步,将卷积核矩阵重新排列为4*16形状:

第二步,将卷积结果重新排列为1维行向量:

第三步,将重排矩阵转置后与行向量转置后相乘,得到16个元素的1维列向量:

第四步,对列向量进行重排为4*4的矩阵,得到最终结果:

这样就通过转置卷积将2x2的矩阵反卷为一个4x4的矩阵,但从结果也可以看出反卷积的结果与原始输入信号不同。只是保留了位置信息,以及得到了想要的形状。

  • 空洞卷积

空洞卷积也叫扩张卷积,指的是 在正常的卷积核的点之间插入空洞 。它是相对正常的离散卷积而言的,对于步长为2,填充为1的正常卷积如下图:

插入空洞后,卷积过程变为:

空洞卷积通过 空洞率(dilation_rate) 控制,上图是空洞率为2的情况。

  • 可分离卷积

可分离卷积分为 空间可分离卷积 深度可分离卷积

空间可分离卷积有个前提条件,就是卷积核可以表示为两个向量的乘积:

这样,3x1的kennel首先与图像进行卷积,然后应用1x3的kennel。在执行相同操作时,可以减少参数数量。所以,空间可分离卷积节省了成本,但是一般不使用它做训练,而 深度可分离卷积 是更常见的形式。

深度可分离卷积包括两个步骤:深度卷积和1*1卷积.下面是一个深度可分离卷积的例子:

对于形状是7*7*3的输入层,有3个通道。

第一步在输入层上应用 深度卷积 。我们在2D-卷积中分别使用 3 个卷积核(每个filter的大小为3*3*1),每个卷积核仅对输入层的 1 个通道做卷积,这样的卷积每次都得到大小为5*5*1 的映射,之后再将这些映射堆叠在一起创建一个 5*5*3 的特征图:

第二步进行扩大深度 。我们用大小为1*1*3的卷积核做1x1卷积。每个卷积核对5*5*3输入图像做卷积后都得到一个大小为5*5*1的特征图,重复做128次1*1卷积,就得到了最终的结果:

从本质上说,深度可分离卷积就是3D卷积kernels的分解(在深度上的分解),而空间可分离卷积就是2D卷积kernels的分解(在WH上的分解)

  • 分组卷积

分组卷积,顾名思义,filters被拆分为不同的组,每一个组都负责具有一定深度的传统 2D 卷积的工作。比如下面这张图就展示了分组卷积的原理:

上图表示的是被拆分为 2 个filters组的分组卷积。在每一组中,其深度仅为传统2D-卷积的一半——Din/2,而每个filters组都包含Dout/2个filters。第一个filters组(红色)对输入层的前半部分做卷积([:,:,0:Din/2]),第二个filters组(黄色)对输入层的后半部分做卷积([:,:,Din/2:Din])。最终,每个filters组都输出了Dout/2个通道。整体上,两个组输出的通道数为Dout ,之后,我们再将这些通道堆叠到输出层.
分组卷积有三个优点: 有效的训练;模型参数随着filters组数的增加而减少;可以提供比标准2D卷积更好的模型。

参考资料:

https://www.zhihu.com/question/30888762

https://www.jianshu.com/p/1c9fe3b4dc55

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

卷积核的基本概况 的相关文章

随机推荐

  • OpenHarmony 实现屏幕横竖屏

    前言 OpenHarmony源码版本 4 0release 开发板 DAYU rk3568 一 修改 abilities 中的 orientation 实现横竖屏 当我们应用的Alility继承的是UIAbility时 对应的 module
  • 陶瓷材料检测项目及标准-科学指南针

    陶瓷原材料是用纯天然或生成化学物质历经成型和高溫煅烧做成的一类无机非金属原材料 它具备高溶点 高韧性 高耐磨性能 耐空气氧化等优势 可作为构造原材料 刀具材质 因为陶瓷还具备一些独特的性能 又可做为新型功能材料 各检测组织针对陶瓷检测的新项
  • 具有粗糙表面的回复反射器的反射

    系统设置 当试图将独立于入射方向的光大致反射回同一方向时 通常可以使用回复反射器 这个演示展示了如何在非序列场追迹的帮助下对这种结构进行建模 它还包括通过在表面上应用随机函数来对反射器壁的粗糙表面进行建模 任务描述 系统设置 仿真结果 涡流
  • 卖过房,进过厂,毕业两年后这个99年的小哥哥毅然转行车载测试,收入翻番!

    21年大学毕业的时候 我就知道可能接下来找工作是个难题 这年头 大学生早就不值钱了 毕业生人数一年比一年高 但企业的招聘岗位却只有那么几个 再加上疫情影响 各行各业都在缩减开支 减少招聘 985 211等重点大学的人才人家还挤破头 哪里还有
  • 开题报告-基于BS结构的NBA赛事系统设计与实现

    选题的国内外研究现状 众所周知 NAB联盟是全世界篮球最高水平的篮球联盟 NBA联盟代表着独特的篮球氛围 文化和劲爆的篮球水平 引领着世界篮球发展的趋势 对加快世界篮球水平的推动是至关重要的 近20年来 由于美国国内各职业体育联赛的迅速发展
  • 从抓包到接口测试,五分钟看完全过程解析,还说你不会测试?

    一 为什么抓包 1 从功能测试角度 通过抓包查看隐藏字段 Web 表单中会有很多隐藏的字段 这些隐藏字段一般都有一些特殊的用途 比如收集用户的数据 预防 CRSF 攻击 防网络爬虫 以及一些其他用途 这些隐藏字段在界面上都看不到 如果想检测
  • 镜像的优化

    一 镜像优化方法 查看上次装的镜像v1为525MB 对此进行优化 方法一 减少镜像的层数 清理镜像构建的中间产物 1 编辑docker目录中Dockerfile文件 利用shell命令对其进行减层以及清理和删包 2 创建镜像并对比 此时v2
  • pytorch中,如何将一个网络参数传给另一个相同网络的参数?

    要将一个网络的参数传递给另一个相同网络的参数 可以使用 state dict 方法和 load state dict 方法 假设有两个相同的网络 net1 和 net2 它们具有相同的网络结构 但是它们的权重和偏差不同 要将一个网络的参数传
  • 浅浅的聊一下时间窗口及其应用场景

    一 前言 时间窗口在限流 分布式 ID 的生成方面都有很多应用 这一篇主要目的是弄清楚怎么最好的实现这个功能 时间窗口的应用很多 可以用于统计和监控 也可以用于限流和流量控制 或者在指定窗口里面做实时计算 ID 生成等业务处理等 二 原理
  • 【计算机毕设选题推荐】基于Java的生活超市系统的设计与实现

    精彩专栏推荐订阅 在下方主页 作者主页 计算机毕设木哥 文章目录 一 项目介绍 二 开发环境 三 系统展示 四 代码展示 五 项目总结 font color fe2c24 大家可以帮忙点赞 收藏 关注 评论啦 一 项目介绍 在当前数字化和信
  • C言C语之数据类型、运算符与表达式

    01 C语言的数据类型 数据类型一般是按照被定义变量的性质 表现形式 占据的内存大小 构造特点来进行划分的 C语言中 数据类型分为 基本数据类型 构造数据类型 指针类型 空类型四大类 基本类型又分为 整型 字符型 实型 或浮点型 枚举类型
  • 简单的配音软件有哪些?告诉你怎么用机器实现配音

    爱看电视剧 甄嬛传 的小伙伴们应该都对这几句经典台词有深刻的印象吧 三阿哥他 又长高了 粉色娇嫩 你如今几岁了 臣妾做不到啊 皇额娘她推了熹娘娘 她推了熹娘娘 惟愿逆风如解意 容易莫摧残 这福气给你要不要啊 有时候我一看见这些台词 脑海里仿
  • 国产手机品牌放弃低端市场,山寨手机卷土重来,价格低至80元

    国产手机品牌纷纷哀叹手机不好卖 相比起品牌手机的哀叹 山寨手机则没有怨天尤人 而是积极主动的寻找市场机会 比国产手机品牌更能在特殊的市场环境中求生存 据某电商平台的数据 山寨手机如今仍然占有不小的市场份额 他们主要以做低端机为主 价格非常实
  • 图片编辑软件哪个好?一键美化

    图片编辑软件是一种功能强大的工具 可以帮助使用者对数字图像进行各种编辑和修饰 这些软件提供了各种工具和功能 使用者可以对图像进行裁剪 调整亮度 对比度 色彩平衡 应用滤镜效果 添加文字和形状等操作 通过这些图片编辑修改文字软件 可以大大增强
  • 基于SpringBoot实现功能最全电影购票与信息资讯平台

    作者简介 Java领域优质创作者 CSDN博客专家 CSDN内容合伙人 掘金特邀作者 阿里云博客专家 51CTO特邀作者 多年架构师设计经验 腾讯课堂常驻讲师 主要内容 Java项目 Python项目 前端项目 人工智能与大数据 简历模板
  • 【电子学会】2023年05月Python三级试卷

    青少年软件编程 Python 等级考试试卷 三级 分数 100 题数 38 一 单选题 共25题 每题2分 共50分 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
  • 电感耦合等离子体(ICP)-科学指南针

    ICP 即 电感耦合等离子体 Inductively Coupled Plasma 一般指电离度超过0 1 被电离了的气体 这种气体不仅含有中性原子和分子 而且含有大量的电子和离子 且电子和正离子的浓度处于平衡状态 从整体来看是中性的 有时
  • node.js学习笔记——内部模块、自定义模块的导入和使用方式

    文章目录 前文提要 内部模块 fs模块 导入方式 fs readFile fs writeFile path模块
  • VSCode设置中文

    https www somode com softjc 30980 html
  • 卷积核的基本概况

    一 什么是卷积核 在数学上 卷积核的标准定义是 两个函数在反转和移位后的乘积的积分 其中 函数g一般称为 过滤器 filters 函数f指的是 信号 图像 在卷积神经网络里 卷积核其实就是一个过滤器 但在深度学习里 它不做反转 而是直接 执