Chapter 4看了一下感觉可能帮助理解的作用比较大,不涉及太多重要概念,因此就先略过了,先记Chapter 5
这一章其实也比较简单,主要就是讲为什么深度网络比较难训练。作者认为主要的问题就是梯度不稳定问题,当网络太深的时候,会出现梯度消失或爆炸。原理其实用一幅图就可以说明白了
由上图可以看到,当我们要求对网络中某一参数(权重或偏差)的梯度的时候,反向传播算法会需要我们求一系列的sigma_prime和w的值,而这些值完全可能是大于1或者小于1的。其中因为sigmoid这类函数的两端平滑性,很多sigma_prime都小于1的可能性还不小,而如果权重初始化时常采用标准正态分布,因此w小于1的概率也不小,由此使得经过多轮传播后梯度消失的可能性越来越大。反之通过选择其他的一些初始参数比如w初值选得很大也由可能造成梯度爆炸问题。总之,当网络过深后,梯度不稳定会是阻碍网络训练的重要问题。
还有另外一些问题,比如Bengio 2010年的一篇论文提出当时网络很深时,最后一层的sigmoid神经元很容易就会饱和到0,从而阻碍训练。(这个和上面的消失或爆炸有异曲同工之处吧,前面层的梯度因为传播次数过多而过小,后面曾的则可能过大)