10.1 卷积神经网络(LeNet)
- 一个早期用来识别手写数字图像的卷积神经网络:LeNet 。
-
LeNet-5展示了通过梯度下降训练卷积神经网络可以达到手写数字识别在当时最先进的结果。
10.1.1 LeNet网络参数配置
10.1.2 LeNet模型
- LeNet分为卷积层块和全连接层块两个部分
- 卷积层块里的基本单位是卷积层后接最大池化层
- 卷积层块由两个这样的基本单位重复堆叠构成
- 在卷积层块中,每个卷积层都使用5 x 5的窗口,并在输出上使用sigmoid激活函数。
- 第一个卷积层输出通道数为6,第二个卷积层输出通道数则增加到16。
- 卷积层块的两个最大池化层的窗口形状均为2 x 2,且步幅为2。
- 由于池化窗口与步幅形状相同,池化窗口在输入上每次滑动所覆盖的区域互不重叠。
- 卷积层块里的基本单位是卷积层后接最大池化层
10.2 深度卷积神经网络(AlexNet)
-
AlexNet使用了8层卷积神经网络,并以很大的优势赢得了ImageNet 2012图像识别挑战赛。
10.2.1 AlexNet网络参数配置
- AlexNet与LeNet的设计理念非常相似,但也有显著的区别
- 第一,AlexNet包含8层变换,其中有5层卷积和2层全连接隐藏层,以及1个全连接输出层。
- 第二,AlexNet将sigmoid激活函数改成了ReLU
- 第三,AlexNet通过丢弃法来控制全连接层的模型复杂度。而LeNet并没有使用丢弃法。
- 第四,AlexNet引入了大量的图像增广,如翻转、裁剪和颜色变化,从而进一步扩大数据集来缓解过拟合。
10.3 使用重复元素的网络(VGG)
- VGGNet是由牛津大学视觉几何小组提出的一种深层卷积网络结构
-
VGG提出了可以通过重复使用简单的基础块来构建深度模型的思路
- VGG块
- VGG块的组成规律是:连续使用数个相同的填充为1、窗口形状为3 x 3的卷积层后接上一个步幅为2、窗口形状为2 x 2的最大池化层。
- 卷积层保持输入的高和宽不变,而池化层则对其减半。
- 对于给定的感受野,采用堆积的小卷积核优于采用大的卷积核,因为可以增加网络深度来保证学习更复杂的模式,而且代价还比较小(参数更少)。
- 例如,在VGG中,使用了3个3x3卷积核来代替7x7卷积核,使用了2个3x3卷积核来代替5*5卷积核
10.4 网络中的网络(NiN)
- 网络中的网络(NiN)。
-
提出了另外一个思路,即串联多个由卷积层和“全连接”层构成的小网络来构建一个深层网络。
-
- NiN块
-
左图是AlexNet和VGG的网络结构局部,右图是NiN的网络结构局部
-
- 除使用NiN块以外,NiN还有一个设计与AlexNet显著不同:
- NiN去掉了AlexNet最后的3个全连接层,取而代之地,NiN使用了输出通道数等于标签类别数的NiN块,然后使用全局平均池化层对每个通道中所有元素求平均并直接用于分类。
- 全局平均池化层即窗口形状等于输入空间维形状的平均池化层。
10.5 含并行连结的网络(GoogLeNet)
-
GoogLeNet相比于以前的卷积神经网络结构,除了在深度上进行了延伸,还对网络的宽度进行了扩展
- GoogLeNet中最核心的部分是其内部子网络结构Inception块
-
与NiN块相比,这个基础块在结构上更加复杂