一. LeNet-5模型的结构图
LeNet-5共有7层,不包含输入,每层都包含可训练参数(连接权重)。输入图像为32×32大小。这要比Mnist数据库(一个公认的手写数据库,大小应该是28×28)中最大的字母还大。这样做的原因是希望潜在的明显特征如笔画断电或角点能够出现在最高层特征监测子感受野的中心。
首先,简要解释下上面这个用于文字识别的LeNet-5深层卷积网络:
(1).输入图像是32×32的大小,过滤器的大小是5×5的,由于不考虑对图像的边界进行拓展(narrow CNN),则过滤器将有28×28(32 - 5 + 1 = 28,其中1是步长)个不同的位置,也就是C1面的大小是28x28。这里设定C1层中有6个不同的C1面,每一个C1面内的权值是共享的。
(2).S2层是一个下采样层(subsampling layer)。简单的说,由4个点下采样为1个点,也就是4个数的加权平均。但在LeNet-5系统,下采样层比较复杂,因为这4个加权系数也需要学习得到,这显然增加了模型的复杂度。在斯坦福关于深度学习的教程中,这个过程叫做Pool。S2面的大小是14×14,其中14=2