AlexNet:ImageNet Classification with Deep Convolutional Neural Networks (译:基于深度卷积神经网络的图像分类)论文总结
作者:Alex Krizhevsky (University of Toronoto) 、Ilya Sutskever(University of Toronoto)、Geoffrey E.Hinton(University of Toronoto)
研究成果:
AlexNet 在ILSVRC -2012 超出第二名10.9 个百分点夺冠
SIFT+FVS:ILSVRC-2012分类任务第二名
1CNN:训练一个AlexNet 5CNNS:训练五个AlexNet 取平均值 1CNN*在最后一个池化层之后,额外添加第六个卷积层并使用ImageNet 2011 (秋)数据集上预训练 7CNNS*两个与训练微调,与5CNNS取平均值
AlexNet历史意义:
第一,拉开了卷积神经网络统治计算机视觉的序幕;第二,加速了计算机视觉应用落地
AlexNet 解决的问题
加速了大型网络的训练,大大地提高了网络训练的精度,提升了大型网络的泛化能力,但缺点是参数量太大,增加了网络的计算
论文摘要:
1、在ILSVRC-2010的120万张图片上训练深度卷积神经网络,获得最优结果,TOP-1和TOP-5error分别为37.5%,17%
2、该网络由5个卷积层和3个全连接层构成,共计6000万参数,65万个神经元
3、为了加快训练,采用非饱和激活函数--Relu,采用GPU训练
4、为减轻过拟合,采用Dropout
5、基于以上模型及技巧,在ILSVRC-2012已超出第二名10.9个百分点成绩夺冠
【注:大家在学习论文时,一定要学会自己去总结别人论文的摘要部分,学习一下别人摘要是怎末写的,尤其是英文咋写的,对我们以后写论文会比较有帮助】
【另注:ImageNet数据集有超过1500万的标注高分辨率图像,这些图像属于大约22000个类别。这些图像是从网上收集的,使用了Amazon’s Mechanical Turk的众包工具通过人工标注的。从2010年起,作为Pascal视觉对象挑战赛的一部分,每年都会举办ImageNet大规模视觉识别挑战赛(ILSVRC)。ILSVRC使用ImageNet的一个子集,1000个类别每个类别大约1000张图像。总计,大约120万训练图像,50000张验证图像和15万测试图像。
ILSVRC-2010是ILSVRC竞赛中唯一可以获得测试集标签的版本,因此我们大多数实验都是在这个版本上运行的。由于我们也使用我们的模型参加了ILSVRC-2012竞赛,因此在第六节我们也报告了模型在这个版本的数据集上的结果,这个版本的测试标签是不可获得的。在ImageNet上,按照惯例报告两个错误率:top-1和top-5,top-5错误率是指测试图像的正确标签不在模型认为的五个最可能的便签之中。】
网络架构
第一 采用Relu非线性激活函数( ReLU Nonlinearity)
使用ReLU的四层卷积神经网络在CIFAR-10数据集上达到25%的训练误差比使用tanh神经元的等价网络(虚线)快六倍,大大提高了网络训练的速度。
第二 采用双GPU(Training on Multiple GPUs)训练加快了训练速度
我们采用的并行方案,基本上每个GPU放置一半的核(或神经元),还有一个额外的技巧:只在某些特定的层上进行GPU通信。这意味着,例如,第3层的核会将第2层的所有核映射作为输入。然而,第4层的核只将位于相同GPU上的第3层的核映射作为输入。
第三 采用局部响应归一化(Local Response Normalization)
本文作者认为采用局部响应归一化可以降低错误率(但在后续研究中被推翻了,认为这个对准确度没有影响)
第四 采用重叠池化( Overlapping Pooling)
采用重叠池化的模型,发现它更难过拟合
第五 整体架构
第2,4,5卷积层的核只与位于同一GPU上的前一层的核映射相连接(看图2)。第3卷积层的核与第2层的所有核映射相连。全连接层的神经元与前一层的所有神经元相连。第1,2卷积层之后是响应归一化层。3.4节描述的这种最大池化层在响应归一化层和第5卷积层之后。ReLU非线性应用在每个卷积层和全连接层的输出上。
第1卷积层使用96个核对224 × 224 × 3的输入图像进行滤波,核大小为11 × 11 × 3,步长是4个像素(核映射中相邻神经元感受野中心之间的距离)。第2卷积层使用用第1卷积层的输出(响应归一化和池化)作为输入,并使用256个核进行滤波,核大小为5 × 5 × 48。第3,4,5卷积层互相连接,中间没有接入池化层或归一化层。第3卷积层有384个核,核大小为3 × 3 × 256,与第2卷积层的输出(归一化的,池化的)相连。第4卷积层有384个核,核大小为3 × 3 × 192,第5卷积层有256个核,核大小为3 × 3 × 192。每个全连接层有4096个神经元。
减轻过拟合的方法
第一 数据增强 (训练技巧)
【方法1 针对位置】
在训练阶段: 1、图片统一缩放至256*256 2、随机位置裁剪出224*224区域 3、随机进行水平翻转
在测试阶段:1、 图片统一缩放至256*256 2、裁剪出5个224*224区域 3、均进行水平翻转,共得到10张224*224的图片
【方法二 针对颜色】
通过PCA的方法修改RGB通道的像素值,实现颜色扰动,效果有限,仅在top-1上提升1个百分点(PCA:主成分分析,其目的就是找到高维数据中的主成分,并利用“主成分”数据,来表征原始数据,从而达到降维的目的,使得降维后的数据的方差达到最大。常用于高维数据的降维,可用于提取数据的主要特征分量。)
第二 Dropout
要注意训练和测试时两个阶段的数据尺度变化,测试时,神经元输出值需要乘以p
论文总结
关键点:
1、大量带标签的数据--ImageNet 2、高性能计算资源--GPU 3、合理算法模型--深度卷积神经网络
创新点:
1、采用Relu加快大型神经网络训练 2、采用LPN提升大型网络泛化能力 3、采用overlapping pooling提升指标4、采用随机裁剪反转及色彩扰动增加数据多样性 5、采用Dropout 减轻过拟合 6、相似图片具有“相近”的高级特征 (特征的相似性:相似图片的第二个全连接层输出特征向量的欧氏距离相近)【启发点:可用AlexNet 提取高级特征进行图像检索、图像聚类、图像编码】 7、图像检索可基于高级特征,效果应优于基于原始图像 8、网络结构具有相关性,不可轻易移除某一层 9、采用视频数据,可能有新突破