学习深度学习后接触的第一个复杂的神经网络就是AlexNet,刚开始看到它时还是比较晕菜的,因为是自学,感觉看过去就算了,但自己又有种钻牛角尖的精神,回过头来一遍一遍地分析AlexNet,推算每一步的由来,经过多方资料的整合和验算,终于得出了自己较为满意的理解。
首先,看一下整体的网络结构图:
图中可以看出,整个过程共分为8层,而每一个步骤又不尽相同,共分为5个卷积层,3个全连接层(注:全连接层后不能再加卷积层和池化层)。其中,在第1,2,5层使用了Max pooling,且1,2层还使用了LRN操作;第6,7,8层使用了dense操作,且6,7层使用了dropout全连接操作。接下来,简单介绍下AlexNet网络中存在的一些知识点。
•Relu激活函数:AlexNet首次使用了Relu激活函数,表达式为max(0,x),即x为负数时,结果为0。
•2-GPU并行结构:该网络使用了两个GPU,使运算速度能够得到有效提升。
•Max pooling:池化层有最大值池化、平均值池化,这里使用的是最大池化层,用来减少计算量,一定程度解决平移鲁棒。
•dropout全连接层:将某一层50%的神经元的随机置为0,为了降低过拟合。
•LRN:局部响应归一化分为通道间归一化和通道内归一化,这里使用通道间归一化。
接下来就是对AlexNet进行拆解分析了。
第1层
第一层输入为227*227*3大小的图片(多方证实227为正确的输入尺寸大小,且便于后续计算),使用96个11*11*3的卷积核进行卷积后得到55*55*96个像素层(注55的由来:(227-11)/4+1=55),由于系统使用了双GPU,因此分为两组55*55*48的像素层。由于第二层的输入尺寸为27*27*128,因此这里的max pooling池化层使用了规模为3*3,步长为2进行处理,池化后的像素层即在每一个GPU上生成了27*27*48的像素层(注27的由来:(55-3)/2+1=27)。最后,在5个通道数的相邻通道间进行LRN局部归一化处理,最终得到两组27*27*48的像素层。
第一层的参数共为11*11*3*96+96=34944个。
第二层
第二层中,在每一个GPU上输入的尺寸为27*27*48,使用128个5*5*48的卷积核进行卷积操作,得出27*27*128的像素层(注27的由来:(27-5+2*2)/1+1=27,其中2*2为padding操作,其实主要是为了便于后续计算方便,有种“拼凑”的感觉)。由于第三层的输入尺寸为13*13*192,因此max pooling池化层使用了规模为3*3,步长为2进行处理,池化后的像素层即在每一个GPU上生成了13*13*128的像素层(注6的由来:(27-3)/2+1=13)。最后,在5个通道数的相邻通道间进行LRN局部归一化处理,最终得到两组13*13*128的像素层。
第二层的参数共为(5*5*48*128+128)*2=307456个。
第三层
第三层中,由图中可以看到虚线的指向和前面不同,这里可以理解为将两个GPU的像素层合并后进行卷积,之后再重新分为两组,这样有利于样本的随机性。因此结合两组GPU输入的尺寸为13*13*256,使用384个3*3*256的卷积核进行卷积操作,得出13*13*384的像素层(注13的由来:(13-3+2*1)/1+1=13,其中2*1为padding操作,这里仍然是为了便于后续计算方便,有种“拼凑”的感觉)。第三层只是简单的卷积操作,因此最终得到两组13*13*192的像素层。
第三层的参数共为3*3*256*384+384=885120个。
第四层
第四层更为简单,在每一个GPU上输入的尺寸为13*13*192,使用192个3*3*192的卷积核进行卷积,最终得到两组13*13*192的像素层(注13的由来:(13-3+2*1)/1+1=13,原因同上)。
第四层的参数共为(3*3*192*192+192)*2=663936个。
第五层
第五层中,在每一个GPU上的输入尺寸为13*13*192,使用128个3*3*192的卷积核进行卷积后得到13*13*128的像素层(注13的由来:(13-3+2*1)/1+1=13,原因同上)。然后同样使用规模为3*3,步长为2的max pooling池化层,池化后的像素层即在每一个GPU上生成了6*6*128的像素层(注6的由来:(13-3)/2+1=6)。最终得到两组6*6*128的像素层。
第五层的参数共为(3*3*192*128+128)*2=442624个。
第六层
第六层由图中可见,这里同样将两个GPU的像素层合并后进行全连接,之后再重新分为两组,因此结合两组GPU输入的尺寸为6*6*256,由于这里是dropout全连接层,因此使用了4096个神经元进行输出,且该过程中了使用Relu激活函数,降低了过拟合,提高了计算速度和准确度。最终得到4096个输出。
第六层的参数共为6*6*256*4096+4096=37752832个。
第七层
第七层同第六层类似,即将两个GPU的像素层合并后进行全连接,之后再重新分为两组,同样这里是dropout全连接层,使用了4096个神经元进行输出,且该过程中了使用Relu激活函数,降低了过拟合,提高了计算速度和准确度。最终得到4096个输出。
第七层的参数共为1*1*4096*4096+4096=16781312个。
第八层
终于到达最后一层了。在第八层中,对4096个输入使用1000个神经元进行全连接输出,最终得到1000个输出。
第八层的参数共为1*1*4096*1000+1000=4097000个。
总结:AlexNet神经网络共经历了8层包括卷积、池化、全连接操作,总参数有60965224个,其中参数量多在全连接层。我对AlexNet神经网络的研究在深度学习领域只是一个开始,研究生期间一直在研究聚类算法,结合过简单的如Hopfield等神经网络并取得了一定的效果,毕业后进入工作,业余时间用来自学深度学习,发现自己对人工智能方面的认识只是九牛一毛,很快被其强大及神秘深深地吸引。第一次在简书上写文章,有不足之处还望大家多多包涵,指出问题共同探讨。