解决vanishing gradient问题:
矩阵和向量的表示, 与之前类似 所以只要是sigmoid函数的神经网络都会造成gradient更新的时候及其不稳定, vanishing or exploding问题。
训练深度神经网络的其他难点: 2010 Glorot and Bengio*: sigmoid函数造成输出层的activation大部分饱和0, 并且建议了其他的activation函数
2013 Sutskever, Martens, Dahl and Hinton*: 随机初始权重和偏向时, 提出momentum-based stochastic gradient descent
综上所属, 训练深度神经网络中有很多难点.
本节课: 神经网络的不稳定性
activation方程的选择
初始化权重和偏向的方法
具体更新的过程 hyper-parameter的选择
这些目前都是当前学术界研究的课题, 已经取得一些有效的解决方法 解决vanishing gradient方法:
Sigmoid函数值在[0, 1], ReL函数值在[0,∞], 所以sigmoid函数方面来描述概率, 而ReL适合用来描述实数
Sigmoid函数的gradient随着x增大或减小和消失
ReL 函数不会:
gradient = 0 (if x < 0), gradient = 1 (x > 0)
Rectified Linear Unit在神经网络中的优势:
不会产生vanishing gradient的问题