Neural Network and Deep Learning读书笔记-Chap5

Chapter 4看了一下感觉可能帮助理解的作用比较大，不涉及太多重要概念，因此就先略过了，先记Chapter 5

这一章其实也比较简单，主要就是讲为什么深度网络比较难训练。作者认为主要的问题就是梯度不稳定问题，当网络太深的时候，会出现梯度消失或爆炸。原理其实用一幅图就可以说明白了

梯度传播过程示意

由上图可以看到，当我们要求对网络中某一参数（权重或偏差）的梯度的时候，反向传播算法会需要我们求一系列的sigma_prime和w的值，而这些值完全可能是大于1或者小于1的。其中因为sigmoid这类函数的两端平滑性，很多sigma_prime都小于1的可能性还不小，而如果权重初始化时常采用标准正态分布，因此w小于1的概率也不小，由此使得经过多轮传播后梯度消失的可能性越来越大。反之通过选择其他的一些初始参数比如w初值选得很大也由可能造成梯度爆炸问题。总之，当网络过深后，梯度不稳定会是阻碍网络训练的重要问题。

还有另外一些问题，比如Bengio 2010年的一篇论文提出当时网络很深时，最后一层的sigmoid神经元很容易就会饱和到0，从而阻碍训练。（这个和上面的消失或爆炸有异曲同工之处吧，前面层的梯度因为传播次数过多而过小，后面曾的则可能过大）

最后编辑于：2019.02.03 16:43:17

Neural Network and Deep Learning读书笔记-Chap5

推荐阅读更多精彩内容