1、卷积神经网络演变的过程
卷积神经网络可以追溯到上世纪60年代Hubel和Wiesel对猫大脑中的视觉系统的研究。而近期引爆热点的开端是2012年在Imagenet图像识别大赛中,Hinton团队使用 AlexNet 把error rate从25%以上提升到了15%,颠覆了图像识别领域。其《ImageNet Classification with Deep Convolutional Neural Networks》论文提出了全新的深层结构和dropout方法。
按照AlexNet 的思想,继续把网络做的更深更宽,Inception和VGG在2014年把网络加深到了20层左右,图像识别的error rate也大幅提升到6.7%,接近人类的5.1%。
网络越深准确率越好吗?随着试验,发现并不是这样的。当深度达到某个程度后,继续加深会导致训练集准确率下降。在此基础上,2015年,何凯明提出ResNet,引入捷径连接技术(shortcut connections)将输入跨层传递并与卷积的结果相加。ResNet使得底层的网络能够得到充分训练,准确率也随着深度的加深而得到显著提升。将深度为152层的ResNet用于LSVRC-15的图像分类比赛中,它获得了第1名的成绩。
发展到这里,准确性已经到达一定高度了,但移动互联网时代,很多任务需要在手机等终端执行,而这么大的运算量和参数量是不能接受的?如何解决呢?Google在InceptionV1到V4中针对这个问题做了很多的调整,在MobileNet中更是引入了深度可分离卷积,将问题优化了近乎极致。
随着发展,2018年,Google推出了强化学习-NASNet。
接下来,对上述发展过程中的AlexNet、VGGNet、ResNet、Inception v1 - v4 和 MobileNet 进行更深一步地了解。
2、AlexNet出现解决的问题
首先,作为一个引爆点的网络,解决了最大的问题就是将图像识别错误率从25%以上提升到了15%,带来了全新的深层结构,引出了dropout概念,从而引发出了一种AlexNet的思想,给后来的研究人员带了很多的启发。可以说现代意义上的深度卷积神经网络起源于 AlexNet。
3、AlexNet介绍
这个网络有5个卷积层,它们中的一部分后面接着max-pooling层进行下采样;最后跟3个全连接层。最后一层是softmax输出层,共有1000个节点,对应ImageNet图集中 1000个图像分类。网络中部分卷基层分成2组进行独立计算,主要原因是当时的GPU计算能力不够,显存容量不够大,分成2组,有利于GPU并行化以及降低计算量。
运用了GPU进行运算,为后面的人们打开了新世界大门。整个网络的参数量在60兆以上,最终训练出来的模型文件在200兆以上。它最大的意义在于,通过这次实验,证明了更深层次的卷积神经网络,可以提取出更加鲁棒的特征信息,并且这些特征信息能更好的区分物品类别。

AlexNet最后2个全连接层中使用了dropout,因为全连接层参数过多容易过拟合。思路是:1、随机删除网络中的一些隐藏神经元,保持输入输出神经元不变;2、将输入通过修改后的网络进行前向传播,然后将误差通过修改后的网络进行反向传播。使用dropout,每次删除的神经元不定,相当于训练了一个子网络,最终很多的子网络组合在一起,试图包含现实的所有情况;全连接层,去除很多神经元,消除了神经元之间的依赖,增强泛化能力。