初始点能决定
1.算法是否收敛,
2.算法遭遇数值困难
3.如果能收敛,收敛的有多快。
4.以及差不多的代价的初始点具有极大的泛化误差。
重要的特性:
A.破坏对称性(具有相同激活函数的两个隐藏单元连接到相同单元,那么这些单元必须具有不同的初始参数。一旦他们具有相同的初始参数,然后应用到确定性损失和模型的确定性学习算法将一直以相同的方式更新这两个单元。即使学习算法有着对于不同单元的更新的随机性,但最好还是保持不同,这样能确保没有输入模式丢失在前向传播的零空间和梯度模式丢失在后向传播的零空间。
当采用随机初始化时,可以确定一组不相同的基函数,虽然这经常导致明显的计算代价。常用的方法:
1.采用高墒分布来初始化使得分配不同单元不同的权重。(计算量小)
下面是3个最大熵分布:
1。限制条件:取值范围是 [a,b]
则最大熵分布:U[a,b],也就是 [a,b] 上的均匀分布。
2。限制条件:取值范围是 [0,∞),期望是 a
则最大熵分布:E(1/a),也就是参数是 1/a 的指数分布。
3。限制条件:取值范围是 (-∞,∞),期望是 a,方差是 b
则最大熵分布:N(a,b),也就是参数是 a 和 b 的正态分布
2.使用Gram-Schmidt正交化权重矩阵使得分配的权重非常不同。(但计算量较大)!
B.更大的权重具有更强的破坏对称性的作用,有助于避免冗余单元。但太大的权重在前向传播的过程中会产生爆炸的值,对微小的扰动非常敏感,导致前向传播的过程中表现随机)另外使得激活函数产生饱和的值导致饱和单元的梯度完全消失。