神经网络中的参数初始化问题

1. 为毛标准正态分布的初始化方法不太好?

大概就是这么回事

2. 一种解决方法:

改变w的初始化方式,减小正态分布中的标准差,如,根据输入张量的长度n,把标准差改为1/√n。

其实就是进一步收紧w的分布

3. 一种缓解的方法:S型函数取tanh函数可能会比sigmoid好。(只是针对中间层和输出层)

直观来看:sigmoid函数输出恒正的值,加权求和后更容易落到饱和区,而tanh输出-1~1的值,有正有负则有利与抵消,落到0附近的概率更大一些。

就是这个意思

4. 另一种解决方法:干脆不用S型激活函数了,用ReLu这种没有饱和区的激活函数。

美滋滋
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容