1.Le Net-5的提出
Le Net-5 模型最早是计算机科学家 Yann LeCun 于 1998 年在论文 《Gradient-based learning applied to document recognitionr 》中提出的,当时被广泛应用于银行支票的手写数字识别系统中。它是早期卷积神经网络中最有代表性的实验系统之一,在 MNIST 数据集上, LeNet-5 模型的正确率可以达到99%以上。
2. Le Net-5的结构
该网络共有8层(包括输入+输出层)
输入层(Input)
输入层图片的大小为32×32,只有一个通道,为黑白图像。
卷积层C1( Convolutions):特征提取
滤波器filter大小为5×5,个数(深度)为6,padding=0(不使用0填充),步长stride=1,因此输出图像大小为28×28×6(6个大小为28×28的特征平面)。
池化层S2(subsampling): 数据降维
池化层又称下采样层,目的是降低数据维度(特征平面没有变)。在该层作者采用平均池化(average pooling),滤波器filter 大小取 2×2,步长 stride=2,不使用0填充(padding=0),输出图像大小为 14×14×6。
卷积层C3( Convolutions ):打破对称性,提取深层特征
在卷积层C3中,滤波器filter 大小 为5×5,filter 个数为 16,padding =0, 卷积步长 stride=1,输出矩阵大小为 10×10×16,这层输出共有16个特征平面。
在S2中,我们注意到共有6个特征平面,而在C3中却有16个特征平面,那这其中是如何对应的呢?
其实,作者是这样设计的:利用C3中每个特征平面的卷积核与S2中的多个平面进行卷积运算,换句话说,就是卷积层(C3)的每一个特征平面对应了多个池化层(S2)的采样数据。如下图所示:
左边第一列代表了池化层S2的6个特征平面,上边第一行代表了卷积层C3的16个特征平面。以卷积层0号特征平面为例,其对应了池化层的前三个特征平面0,1 和 2,可以看出,卷积层C3将池化层的特征平面进行了不同维度的组合,在作者看来,这样的设计有助于打破特征对称性,提取深层特征。
池化层S4
滤波器filter大小为5×5,步长stride=2,平均池化,不填充,输出矩阵大小为5×5×16。在该层结束需要将矩阵5×5×16展成一个400维向量。
全连接层C5
该层输入节点为400,输出节点为120,共产生权值48120(400×120+120)个。
全连接层F6
该层输入节点120,输出节点84,共产生权值10164(120×84+84)个。
输出层
该层输入节点84,输出节点10,代表0~9十个数字。该层共有权值850(84×10+10)个。