用 nn.init.orthogonal_
初始化模型参数,会在高斯分布上采样,还会对采样的矩阵进行正交化,使其满足正交矩阵的性质。
这样做保证了网络的权重矩阵之间的正交性,从而减少网络训练过程中的奇异值分解。这样做的好处是,正交矩阵的奇异值都是 1,所以网络不会改变输入信号的范数。这就避免了梯度消失或梯度爆炸的问题,因为梯度的范数也不会随着网络层数的增加而变化。
总而言之,这样做能提高训练效果,是好东西。
用 nn.init.orthogonal_
初始化模型参数,会在高斯分布上采样,还会对采样的矩阵进行正交化,使其满足正交矩阵的性质。
这样做保证了网络的权重矩阵之间的正交性,从而减少网络训练过程中的奇异值分解。这样做的好处是,正交矩阵的奇异值都是 1,所以网络不会改变输入信号的范数。这就避免了梯度消失或梯度爆炸的问题,因为梯度的范数也不会随着网络层数的增加而变化。
总而言之,这样做能提高训练效果,是好东西。