(为方便理解ResNet)卷积神经网络的前世今生

任何事物的从无到有在到完善都是一个推陈出新的过程,也是一个问题接着一个问题解决的过程,卷积神经网络也不例外,了解卷积神经网络的发展历史有助于我们从整体上把握卷积神经网络,从而知道以前的研究学者解决了什么问题乃至知道如今的继续面临着怎样的困境又如何去解决,不能只知其然而不知所以然,这样学习的话会总是在跟着别人的脚步走,一直看别人写的博客,看别人写的代码,这没有什么太大价值。要么就投入科研一线,去探索最前沿的东西,要么就是能将别人新的学术成果快速的应用到实践当中去,要做到这点的前提就是对技术目前的状况要有一个大体上的认知。而想要把握住卷积神经网络的发展史当然就得从一些经典卷积的神经网络上分析,下面就来聊聊那些经典的卷积神经网路。

image.png

上图是2010年至2015年的 ImageNet挑战赛的各种神经网络图,上面很直观的看到2011-2012年是一个分水岭,Hinton的AlexNet将错误率下降了将近10个百分点,由此AlexNet也获得了我们李飞飞教授举办的ImagNet挑战赛的第一名。也正是因为AlexNet取得的成功振奋了AI研究学者的低迷的士气,推动了深度学习发展的新一波浪潮,也就像当年林帅在平型关歼灭日军一个团带给了抗日民族统一战线极大的鼓舞,打败了日军不可战胜的神话。

一、AlexNet

AlexNet

当时的AlexNet由于受限于软硬件水平,将卷积层的卷积核对半分到两块GPU上运行,合理的加快了运算速度,但是这不是造成错误率下降这么多的原因,那么究竟是什么原因嘞?可以想到AlexNet一定有他的创新之处,在谈他的创新之处之前,先来看看在AlexNet之前的具有代表意义的一个卷积神经网络LeNet5:


LeNet5

在AlexNet之前的卷积神经网络都是沿袭的Yann LeCun发明的LeNet5的路子,先来看看LeNet5的结构,她是一个5-6层的卷积神经网络,其卷积核可以看做是个3x3的核,没有采用激活函数或者激活函数使用的sigmoid和阶梯函数,注意这里的Subsampling是下采样和我们现在的MAXPOOL AND AVEPOOL是不同的,他是各行或者搁列或者两种皆而有之的一种采样方式。

而AlexNet采用的11x11大小的核,使用了激活函数ReLU,甚至使用了dropout来regularzation,是一个8层的神经网络,其创新之处就在于加深了网络的深度,采用了不同的激活函数,采用了防止overfitting的方式dropout

二、牛津大学发明的VGG

VGG是一个11-19层的卷积神经网络,探索出来了3X3和1X1的核减小了感受野但是性能却提升了很多,深度也比2012的AlexNete更深,他是2014年ImageNet挑战赛的第二名

三、GoogLeNet

GoogLeNet 谷歌研究团队发明的一个网络,名字后面接着LeNet是为了纪念Yann LeCun发明的LeNet5


GoogLeNet

GoogLenet也探索出来了 3x3和1x1 的感受野,但是他还探索出了新的东西,就是每一个卷积层使用不同类型的卷积核,保持每一个卷积核的输出通道是一样的然后将他们进行concat操作,比如上图中有32x1x1的的卷积核,还有32x3x3的卷积核,32x5x5的卷积核,还有一个3x3的池化,然后将他们的结果进行concat为了将维度保持一致我们可以对其进行padding和stride设置,多个不同类型的感受野也就可能能够感受到各种不同的信息量。GoolLenet采用的是一个22层的网络比起VGG的深度又更深了,GoolLenet是2014年ImageNet挑战赛的冠军。

从LeNet5到GoolLeNet网络的层数从5->8->19->22,层数越来越高,效果也越来越好,那我们是不是就因此能够大胆的推测层数越高效果必然越好嘞?这恐怕未必,要知道马克思主义不就告诉我们吗?量变必然导致质变,事实上也是如此,经过实践证明随着层数的增加性能会下降。

image.png

随着网络层数的增加事实证明并不能如所猜想的那样性能会上升,如上图所示,56层网络和20层的网络想对比错误率反而上升了,这种情况不能够就是为overfitting,因为如果是过拟合的话那么在训练集上的错误率应该会下降才对,那么是什么原因导致的这种层数增多性能反而下降嘞?
经过目前的研究表明主要由一下几点:

  • 梯度爆炸
  • 梯度弥散
  • 网络退化:
    也即网络层数很深的时候后面的层数可能已经起
    不到优化的作用了,相当于没有作用
  • 特征提取变异:
    这是我自己发明的词语,就是说当特征提取到optimal的时候如果在继续提取就会导致提取出的特征只会增大损失函数值,相当于特征变异了。

根据反向传播的原理,由链式求导法则如果随着网络层数的增加其计算图会很深,各种层的梯度相乘的时候如果都相对较大就会导致梯度下降时候减去的梯度和很大,这时候下降之后的参数值有可能就会直接越过各种极小值点,收敛会变的很慢,或者收敛的时候已经越过了最佳收敛点。而当各层的梯度值想对很小的时候设若小于1这个时候层数很大会使得最终梯度趋向于零,当网络层数很深的时候意味着在更新权值的时候只会更新深层的权值,浅层的权值在原地踏步,这样也会导致收敛速度和收敛效果变差。

如果仅仅从理论上面来说,CNN的深度越深那么其曲线变化就会更加的丰富,就能够拟合任何复杂的曲线,但是随着网络深度的加深就会带来上面所提到的那些负面影响,梯度弥散,梯度爆炸,网络退化,特征提取变异。那么如何去彻底的消除这样的负面效果,或者在一定的程度上缓解这样的负面效果嘞?这个就要谈到由我们的何凯明同学发明的ResNet残差网络了。

四、ResNet残差网络

何凯明同学的笑貌

大名鼎鼎的何凯明同学的具体简历就不在这里详细说明了,网上查就行了,下面来看他的算法原理。

残差块

上面图中的网络结构就是两个卷积层组成一个整体称作一个残差块,然后将两个残差块之间变换现在记做 F(x,w,b) 然后将残差块最后的输出记做 H(x) = F(x,w,b)+x,也就是说在传统网络的基础上实现了一个短接模块shortcut connection,这有什么作用嘞?假如x是浅层提取出的特征而且是optimal最优特征,那么通过上面的分析就知道如果接下来的层继续提取特征就会继续损失函数值,这时候如果我们能够构建一个 H(x) = x的identity mapping即当提取出的特征是最优的时候后面的网络层不对x在进行特征提取只是实现恒等映射,那么就能够有效的防止特征提取变异,保证之后的网络层都保持这个提出的最优特征,当网络层很深很深的时候网络退化虽然是不可避免的,但是我们能够通过有效的手段来阻止特征提取变异即通过恒等映射来实现,但是如果我们直接学习有一个恒等映射 F(x) = x 这是很难的,在我们的算法机制上来在反向传播和梯度下降的过程中大家都知道loss函数为了其损失值是会逼迫F(x)趋向于x但是由于梯度消失和梯度弥散这会导致虽然有这个趋势但是却并不能很好的实现,很多的实践结果其实已经验证了这个问题的,但是何凯明同学的残差网络就有效的在一定程度在解决了梯度弥散和梯度爆炸的问题使得有效的实现identity mapping,之前说过由于我们添加了shortcut connection使得最后的输出由 F(x) 变成了 H(x) = F(x)+x,根据反向传播趋势,如果x是提取出的最优的特征,那么如果 F(x) 的值增大就会导致loss的损失值增大,梯度下降的时候就会使得 F(x) 逼近与零来实现恒等映射,但是因为我们CNN算法机制是建立在反向传播和梯度下降上的,如果不能解决梯度爆炸和梯度弥散显然是不能够解决网络特征提取变异的问题的,上面的图只是一个残差模块,我们还不能够看出其威力来,现在看下面的整个残差网络图然后在推到反向传播公式我们就能够很好的理解这个Identity Mapping in Deep Residual Networks的威力之所在。

Residual Networks

假设H(x_l) = x_l + F_1(x_l,w_1,b_1) 那么残差块在经过激活函数f(x)h(x_l) = f(H(x_l))如果激活函数f(x)是一个恒等映射,其实这个激活函数可以通过normalizationReLU来实现,这样h(x) = H(x)=F_1(x_l,W_1,b_1)h(x)记做x_{l+1}x_{l+1} = x_{l} + F_1(x,w_1,b_1) 这时候我们就可以构建从浅层残差模块l到深层残差模块L的前向传播递推公式x_{L} = x_{l} +\sum_{i=1}^{L-1} F_i(x,W_i,b_i) 然后我们在从L层反向传播至l层公式如下:
x_{L} = x_{l} +\sum_{i=1}^{L-1} F_i(x,W_i,b_i)
\dfrac{\partial J}{\partial x_l} = \dfrac{\partial J}{\partial x_L}\dfrac{\partial x_L}{\partial x_l}=\dfrac{\partial J} {\partial x_L}(x_l +\dfrac{ \sum_{i=1}^{L-1}\partial F_i(x,W_i,b_i)}{\partial x_l})
这样就将误差传播时候的链式乘法转换成了加法,在很大程度少缓解了梯度弥散和梯度爆炸,而且误差能够从一个残差模块传播到另一个残差模块,这样H(x) = x + F(x)当x是optimal feature的时候损失函数就会逼迫F(x)趋向于零,这样就很好的解决了在网络层数很深的时候导致的特征提取变异问题,使得深层网络的性能得到提升。
正因为深度残差网络的这种优良特性使得何凯明同学的团队在2015年获得了ImageNet的冠军。

残差模块的模型是H(x) = F(x)+f(x) 何凯明同学做了很多的试验表明当f(x) = xshortcut connection是一个恒等映射的时候网络的性能是最优的,为了方便理解假设f(x) = \lambda x那么其反向传播公式就会变成
x_{L} = x_{l}\prod_{i=1}^{L-1}\lambda_i +\sum_{i=1}^{L-1} F_i(x,W_i,b_i)
\dfrac{\partial J}{\partial x_l} = \dfrac{\partial J}{\partial x_L}\dfrac{\partial x_L}{\partial x_l}=\dfrac{\partial J} {\partial x_L}(\prod_{i=1}^{L-1}\lambda_i +\dfrac{ \sum_{i=1}^{L-1}\partial F_i(x,W_i,b_i)}{\partial x_l})
显然当诸\lambda很大的时候会导致梯度爆炸。其他映射就有可能到至梯度弥撒或者梯度爆炸或者兼而有之。
shortcut connetction也有很多种形式且看下图:

Proposed.png

image.png
image.png

可见after addition是凯明同学试验之后推荐的

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351