Neural Network and Deep Learning读书笔记-Chap5

Chapter 4看了一下感觉可能帮助理解的作用比较大,不涉及太多重要概念,因此就先略过了,先记Chapter 5

这一章其实也比较简单,主要就是讲为什么深度网络比较难训练。作者认为主要的问题就是梯度不稳定问题,当网络太深的时候,会出现梯度消失或爆炸。原理其实用一幅图就可以说明白了

梯度传播过程示意

由上图可以看到,当我们要求对网络中某一参数(权重或偏差)的梯度的时候,反向传播算法会需要我们求一系列的sigma_prime和w的值,而这些值完全可能是大于1或者小于1的。其中因为sigmoid这类函数的两端平滑性,很多sigma_prime都小于1的可能性还不小,而如果权重初始化时常采用标准正态分布,因此w小于1的概率也不小,由此使得经过多轮传播后梯度消失的可能性越来越大。反之通过选择其他的一些初始参数比如w初值选得很大也由可能造成梯度爆炸问题。总之,当网络过深后,梯度不稳定会是阻碍网络训练的重要问题。

还有另外一些问题,比如Bengio 2010年的一篇论文提出当时网络很深时,最后一层的sigmoid神经元很容易就会饱和到0,从而阻碍训练。(这个和上面的消失或爆炸有异曲同工之处吧,前面层的梯度因为传播次数过多而过小,后面曾的则可能过大)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容