ResNet

Motivation:对于许多视觉识别任务来说,网络表示的深度是至关重要的。然而,一方面深网络并不是直接堆叠就可以,会面临梯度消失或爆炸的问题,这个问题很大程度上被正则化输入和批量标准化层方法以及Relu激活解决,使得具有数十层的网络能够开始收敛于随机梯度下降(SGD)和反向传播;另一方面,当更深层次的网络能够开始收敛时,网络学习能力的退化问题开始显现:随着网络深度的增加,准确性达到饱和(这可能不足为奇),然后迅速下降。由于训练误差也随着层数增加而提升,所以这个现象可能并非参数的增加造成的过拟合。


Solution:我们显式地将这些层重新设计为学习输入层的残差函数。显示的设计使得残差模块能够很容易学习到恒等函数,这确保至少不会降低网络的效率,实验证明创建类似残差网络可以提升网络性能。将预测H(x)令为预测F(x)= H(x)- x,称为预测残差函数。

Architecture:

Assumpation:如作者所说,他们确认了反向传播中的梯度,认为BN已经确保避免了梯度消弭情况的发生,因此,退化问题不太可能是由于梯度消散引起的。在排除梯度原因之后,作者猜测深层网络的退化问题可能是由于普通深层网络呈现指数级低收敛速度导致,至于为什么会这样,还有待研究。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容