登录注册写文章

6.2、解决vanishing gradient问题

遇见百分百

6.2、解决vanishing gradient问题

解决vanishing gradient问题：

刚才的例子只是一每层一个神经元:

矩阵和向量的表示，与之前类似所以只要是sigmoid函数的神经网络都会造成gradient更新的时候及其不稳定， vanishing or exploding问题。

训练深度神经网络的其他难点: 2010 Glorot and Bengio*: sigmoid函数造成输出层的activation大部分饱和0，并且建议了其他的activation函数

2013 Sutskever, Martens, Dahl and Hinton*: 随机初始权重和偏向时, 提出momentum-based stochastic gradient descent

综上所属, 训练深度神经网络中有很多难点.

本节课：神经网络的不稳定性

activation方程的选择

初始化权重和偏向的方法

具体更新的过程 hyper-parameter的选择

这些目前都是当前学术界研究的课题, 已经取得一些有效的解决方法解决vanishing gradient方法：

Sigmoid和ReL方程主要区别：

Sigmoid函数值在[0, 1], ReL函数值在[0,∞], 所以sigmoid函数方面来描述概率，而ReL适合用来描述实数

Sigmoid函数的gradient随着x增大或减小和消失

ReL 函数不会：

gradient = 0 (if x < 0), gradient = 1 (x > 0)

Rectified Linear Unit在神经网络中的优势：

不会产生vanishing gradient的问题

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Batch Normalization论文翻译——中英文对照
文章作者：Tyan博客：noahsnail.com | CSDN | 简书声明：作者翻译论文仅为学习，如有侵权请...
SnailTyan阅读 5,178评论 0赞 8
深度学习的需要了解的一些术语
激活函数（Activation Function）为了让神经网络能够学习复杂的决策边界（decision bou...
御风之星阅读 5,268评论 0赞 8
神经网络：改进神经网络的学习方法（下）
改进神经网络的学习方法（下）权重初始化创建了神经网络后，我们需要进行权重和偏差的初始化。到现在，我们一直是根据...
nightwish夜愿阅读 1,958评论 0赞 0
琵琶与木鱼
小和尚的庙里住进了一位女施主。小和尚吓坏了，逃去殿里敲木鱼。山下的女人是老虎，现在老虎居然住进庙里了，看来自己和...
大宝囧囧丸阅读 846评论 0赞 1
人生就如混凝土 -众鑫特材
人生就如混凝土，生出来的时候就那么一滩，谁知道将来会成什么模样。在起初凝结成型的时候，成了就成了，没成...
建筑材料生产厂家阅读 394评论 0赞 1

赞1赞

赞赏

手机看全文