文献简介

CVPR2015 计算机视觉和图像处理相关领域顶级会议

本文是Google公司的Christian Szegedy等人于2014年提出的较深的网络，网络层数达到22层，其中提出了很多新颖的结构和想法。并在ILSVRC2014中获得了分类和检测第一的好成绩。该网络的特点是提升了计算资源的利用率，可以在保持网络计算资源不变的前提下，通过工艺上的设计来增加网络的宽度和深度，基于Hebbian法则和多尺度处理来优化性能。GoogLeNet用的参数比ILSVRC2012的冠军AlexNet的参数少12倍，但准确率更高。

2014年，GoogLeNet和VGG是当年ImageNet挑战赛(ILSVRC14)的双雄，GoogLeNet获得了第一名、VGG获得了第二名，这两类模型结构的共同特点是层次更深了。VGG继承了LeNet以及AlexNet的一些框架结构（详见大话CNN经典模型：VGGNet），而GoogLeNet则做了更加大胆的网络结构尝试，虽然深度只有22层，但大小却比AlexNet和VGG小很多，GoogleNet参数为500万个，AlexNet参数个数是GoogleNet的12倍，VGGNet参数又是AlexNet的3倍，因此在内存或计算资源有限时，GoogleNet是比较好的选择；从模型结果来看，GoogLeNet的性能却更加优越。

文献综述

我们提出了一个代号为Inception的深度卷积神经网络结构，其目标是将分类、识别ILSVRC14数据集的技术水平提高一个层次。这种架构的主要特点是提高了网络内部计算资源的利用率。通过细致设计，我们增加了网络的深度和宽度，并同时保持计算量不变。为了提高质量，网络结构基于赫布原则和多尺度处理规则设计。我们提交给ILSVRC14的一个具体化身称为GoogLeNet，这是一个22层深的网络，其质量在分类和检测方面进行评估。

应用背景

一般来说，提升网络性能最直接的办法就是增加网络深度和宽度，深度指网络层次数量、宽度指神经元数量。但这种方式存在以下问题：

（1）参数太多，如果训练数据集有限，很容易产生过拟合；

（2）网络越大、参数越多，计算复杂度越大，难以应用；

（3）网络越深，容易出现梯度弥散问题（梯度越往后穿越容易消失），难以优化模型。

所以，有人调侃“深度学习”其实是“深度调参”。

解决这些问题的方法当然就是在增加网络深度和宽度的同时减少参数，为了减少参数，自然就想到将全连接变成稀疏连接。但是在实现上，全连接变成稀疏连接后实际计算量并不会有质的提升，因为大部分硬件是针对密集矩阵计算优化的，稀疏矩阵虽然数据量少，但是计算所消耗的时间却很难减少。

那么，有没有一种方法既能保持网络结构的稀疏性，又能利用密集矩阵的高计算性能。大量的文献表明可以将稀疏矩阵聚类为较为密集的子矩阵来提高计算性能，就如人类的大脑是可以看做是神经元的重复堆积，因此，GoogLeNet团队提出了Inception网络结构，就是构造一种“基础神经元”结构，来搭建一个稀疏性、高计算性能的网络结构。

何为Inception？

Inception历经了V1、V2、V3、V4等多个版本的发展，不断趋于完善，本文只是介绍V1版本。读者可以查阅相关资料了解后续版本。

以下是Inception初始结构：

初始结构

在初始结构中，我们能够看到，有卷积操作，有滤波器级联，还有池化操作。

卷积操作示意图：（具体过程可以查阅其它资料）

卷积操作

卷积会导致数据量增加：

数据量增加

滤波器级联示意图：

滤波器级联

池化操作示意图：（池化操作有很多种类型，均值池化，最大值池化，等等）

最大值池化

通过设计一个稀疏网络结构，但是能够产生稠密的数据，既能增加神经网络表现，又能保证计算资源的使用效率。谷歌提出了最原始Inception的基本结构：

原始结构

该结构将CNN中常用的卷积（1x1，3x3，5x5）、池化操作（3x3）堆叠在一起（卷积、池化后的尺寸相同，将通道相加），一方面增加了网络的宽度，另一方面也增加了网络对尺度的适应性。

网络卷积层中的网络能够提取输入的每一个细节信息，同时5x5的滤波器也能够覆盖大部分接受层的的输入。还可以进行一个池化操作，以减少空间大小，降低过度拟合。在这些层之上，在每一个卷积层后都要做一个ReLU操作，以增加网络的非线性特征。

然而这个Inception原始版本，所有的卷积核都在上一层的所有输出上来做，而那个5x5的卷积核所需的计算量就太大了，造成了特征图的厚度很大，为了避免这种情况，在3x3前、5x5前、max pooling后分别加上了1x1的卷积核，以起到了降低特征图厚度的作用，这也就形成了Inception v1的网络结构，如下图所示：

Inception v1

1x1的卷积核作用

naive的inception模块问题：由于较高层会捕获较高的抽象特征，其空间集中度预计会减少。随着转移到更高层，3×3和5×5卷积的比例会增加，但3×3和5×5卷积代价是昂贵的，一旦池化单元添加到混合中，这个问题甚至会变得更明显，输出滤波器的数量等于前一阶段滤波器的数量。池化层输出和卷积层输出的合并会导致这一阶段到下一阶段输出数量不可避免的增加。虽然这种架构可能会覆盖最优稀疏结构，但它会非常低效，导致在几个阶段内计算量爆炸。

1x1卷积的主要目的是为了减少维度，还用于修正线性激活（ReLU）。比如，上一层的输出为100x100x128，经过具有256个通道的5x5卷积层之后(stride=1，pad=2)，输出数据为100x100x256，其中，卷积层的参数为128x5x5x256= 819200。而假如上一层输出先经过具有32个通道的1x1卷积层，再经过具有256个输出的5x5卷积层，那么输出数据仍为为100x100x256，但卷积参数量已经减少为128x1x1x32 + 32x5x5x256= 204800，大约减少了4倍。

1×1(×N)卷积过滤器：

与正常的过滤器一样，唯一不同的是它的大小是1×1，没有考虑在前一层局部信息之间的关系。最早出现在 Network In Network的论文中，用于跨通道信息整合，使用1*1卷积是想加深加宽网络结构，在Inception网络中用来降维，之后resnet,fasterrcnn,densenet, pspnet都有应用。

如果一开始卷积作用在一个平面图（一个 channel//depth）上的时候，1 * 1 的卷积层其实并没有太大意义（相当于对每个像素乘了一个常数），可是当我们对一个有多通道的图片进行 1 * 1 卷积时，就是对每个通道进行了线性组合，线性组合的参数其实就是卷积核的值。

（通道：由上一层filter产生，上一层有N个filter则有N个通道）

假定该卷积层有M个filter，每个filter会对每一个通道都去卷积一遍，最后求和每个通道的卷积结果通过线性组合（求和等），得到最终的卷积。也就是说对于一张宽度W,高度H,通道数N的feature map (W*H*N),通过本层的M个1*1的filter的卷积之后，会变成一张W*H*M的feature map。若N>M，其实就是降维了，反之即升维了。

降维

如果2个filters的1x1卷积层，那么数据就从原本的depth 3 降到了2。若用4个filters，则起到了升维的作用：

降维与升维

以GoogLeNet的3a模块为例，输入的feature map是28×28×192，3a模块中1×1卷积通道为64，3×3卷积通道为128,5×5卷积通道为32，如果是naive Inception Module，那么卷积核参数为1×1×192×64+3×3×192×128+5×5×192×32，而降维Inception Module对3×3和5×5卷积层前分别加入了通道数为96和16的1×1卷积层，这样卷积核参数就变成了1×1×192×64+（1×1×192×96+3×3×96×128）+（1×1×192×16+5×5×16×32），参数大约减少到原来的三分之一。

下面是基于Inception构建了GoogLeNet的网络结构如下（共22层）：

GoogLeNet的网络结构

对上图说明如下：

（1）GoogLeNet采用了模块化的结构（Inception结构），方便增添和修改；

（2）网络最后采用了average pooling（平均池化）来代替全连接层，该想法来自NIN（Network in Network），事实证明这样可以将准确率提高0.6%。但是，实际在最后还是加了一个全连接层，主要是为了方便对输出进行灵活调整；

（3）虽然移除了全连接，但是网络中依然使用了Dropout ;

（4）为了避免梯度消失，网络额外增加了2个辅助的softmax用于向前传导梯度（辅助分类器）。辅助分类器是将中间某一层的输出用作分类，并按一个较小的权重（0.3）加到最终分类结果中，这样相当于做了模型融合，同时给网络增加了反向传播的梯度信号，也提供了额外的正则化，对于整个网络的训练很有裨益。而在实际测试的时候，这两个额外的softmax会被去掉。

GoogLeNet的网络结构图细节如下：

网络结构细节

注：上表中的“#3x3 reduce”，“#5x5 reduce”表示在3x3，5x5卷积操作之前使用了1x1卷积的数量。

GoogLeNet网络结构明细表解析如下：

0、输入

原始输入图像为224x224x3，且都进行了零均值化的预处理操作（图像每个像素减去均值）。

1、第一层（卷积层）

使用7x7的卷积核（滑动步长2，padding为3），64通道，输出为112x112x64，卷积后进行ReLU操作

经过3x3的max pooling（步长为2），输出为((112 - 3+1)/2)+1=56，即56x56x64，再进行ReLU操作

2、第二层（卷积层）

使用3x3的卷积核（滑动步长为1，padding为1），192通道，输出为56x56x192，卷积后进行ReLU操作

经过3x3的max pooling（步长为2），输出为((56 - 3+1)/2)+1=28，即28x28x192，再进行ReLU操作

3a、第三层（Inception 3a层）

分为四个分支，采用不同尺度的卷积核来进行处理

（1）64个1x1的卷积核，然后RuLU，输出28x28x64

（2）96个1x1的卷积核，作为3x3卷积核之前的降维，变成28x28x96，然后进行ReLU计算，再进行128个3x3的卷积（padding为1），输出28x28x128

（3）16个1x1的卷积核，作为5x5卷积核之前的降维，变成28x28x16，进行ReLU计算后，再进行32个5x5的卷积（padding为2），输出28x28x32

（4）pool层，使用3x3的核（padding为1），输出28x28x192，然后进行32个1x1的卷积，输出28x28x32。

将四个结果进行连接，对这四部分输出结果的第三维并联，即64+128+32+32=256，最终输出28x28x256

3b、第三层（Inception 3b层）

（1）128个1x1的卷积核，然后RuLU，输出28x28x128

（2）128个1x1的卷积核，作为3x3卷积核之前的降维，变成28x28x128，进行ReLU，再进行192个3x3的卷积（padding为1），输出28x28x192

（3）32个1x1的卷积核，作为5x5卷积核之前的降维，变成28x28x32，进行ReLU计算后，再进行96个5x5的卷积（padding为2），输出28x28x96

（4）pool层，使用3x3的核（padding为1），输出28x28x256，然后进行64个1x1的卷积，输出28x28x64。

将四个结果进行连接，对这四部分输出结果的第三维并联，即128+192+96+64=480，最终输出输出为28x28x480

第四层（4a,4b,4c,4d,4e）、第五层（5a,5b）……，与3a、3b类似，在此就不再重复。

实验结果

从GoogLeNet的实验结果来看，效果很明显，差错率比MSRA、VGG等模型都要低，对比结果如下表所示：

实验结果对比

笔记整理：唐柳

资料提供：文含，张跃飞，邓若辰

16组-Going Deeper with Convolutions 阅读笔记