登录注册写文章

ResNet为什么能够训练出1000层的模型

小黄不头秃

ResNet为什么能够训练出1000层的模型

我们知道越深的网络其实是越难以训练的，因为我们前面说过，越来越深的网络接近输入层的时候，他的梯度的更新力度是很小的。即使底层有更新，会给高层的网络造成动荡。前面也讲过了两种方法，

（1）Xavier算法初始化
（2）批量归一化，batch-normalization

那么ResNET是如何解决这个问题的呢？

这里推三层神经网络

layer 1
$y = f(x)$
layer 2
$y' = g(f(x))$
layer 3
$y'' = f(x) + g(f(x))$

根据链式法则，我们计算梯度的时候是从顶层往底层往下走。更新最顶层的参数的时候梯度可能还很大，但是经过后面连续乘以多个小数，这个梯度就会小的可怜，直至梯度消失。

ResNet之所以能够解决梯度消失的问题就是因为第三层网络的这种结构。它改变了原来函数套函数的结构，变成了函数加函数的结构。再求导的时候，可以根据加法原则，顶层的梯度是可以传递到底层去的。将原来的乘法改为了加法。解决了梯度消失的问题。

得益于网络结构的设计。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

TASK 6 resnet
CNN14. Residual Networks (ResNets) 1. 梯度弥散与梯度爆炸 1.1 梯度消失(...
不存在的里皮阅读 1,226评论 2赞 1
深度学习的7个技巧，帮你训练出好的模型
文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。来源 |AI公园（...
数智物语阅读 1,833评论 1赞 9
易 AI - ResNet 论文深度讲解
原文：https://makeoptim.com/deep-learning/yiai-paper-resnet[...
CatchZeng阅读 730评论 0赞 3
CNN经典结构（Lenet，AlexNet，VGG，GoogleNet，ResNet, Res...
CNN经典结构前言本文主要介绍2012-2019年的一些经典CNN结构，从Lenet，AlexNet，VGG，...
瞎了吗阅读 10,910评论 0赞 10
【论文解读】CNN深度卷积神经网络-ResNet
1.简介深度残差网络(deep residual network)是2015年微软何凯明团队发表的一篇名为：《D...
Sunflow007阅读 2,237评论 0赞 2

5赞6赞

赞赏

手机看全文