参考论文2018ICLR:
https://arxiv.org/pdf/1701.09175.pdf
神经网络的训练失败的原因很大程度上原因不是梯度消失,本质原因是权重矩阵的退化。虽然网络结构是一个很高维度的权重矩阵,但是由于一些原因,很大部分维度没有信息,表征能力没有那么强大。
虽然梯度范数大,但是如果网络的可用自由度对这些范数的贡献非常不均衡,也就是每个层中只有少量的隐藏单元对不同的输入改变它们的激活值,而大部分隐藏单元对不同的输入都是相同的反应,此时整个权重矩阵的秩不高。并且随着网络层数的增加,连乘后使得整个秩变的更低。
(a)消除输入和权重零奇点:当输入或输出的权重变为0,这使得输出或输入单元变得不可识别(non-identifiable)。加入skip connection,确保units有时候是active的,使得输出权重变得identifiable。
(b)打破对称性:重复权重,Ja = Jb, 使得输出得权重 non-identifiable。skip connections again 打破了这种退化。
(c)打破线性依赖性:当网络结构中隐藏单元得子集变得线性依赖,这个单元得输出变得non-identifiable。
a:展示了简化的含有两个隐藏层单元的model,并把它reduction到一个二维系统h,z。overlap and elimination singularity造成的degenerate manifolds in the loss landscape,由h=0 and z=+-1表示。
b:该图是一个以h为横坐标,z为纵坐标的gradient flow field。用颜色表示梯度范数(gradient norm).本图中,用粗实现标记的地方是最稳定的。 its basin of attraction is shaded in gray. The elimination manifolds(消除流形) 将overlap manifolds(重叠流形)分为稳定段和不稳定段。这些流形在学习动态(learning dynamics)中产生两种类型的高原:沿重叠流形的稳定段(图2b中H=0线上的厚段)的随机梯度下降(SGD)引起的奇点高原(singularity plateaus )。并且在接近奇点高原处,表现为学习动态减缓,即使 initial location is not within the basin of attraction of the stable segment。
虽然这种分析基于两个隐藏单元,但对于更高维度的情况,它能表明隐藏单元之间,沿着重叠方向,学习速度很明显减慢。这些重复方向随着模型隐藏单元的增加也随之增加,于是导致了模型的有效维度减少。
c:从黑点开始学习的动态轨迹。
d:研究线性依赖的toy model
e:d图模型的梯度流动的可视化
d-e图展示了一个single-layer nonlinear network,如果沿着a linear dependence manifold,方向学习,它的学习速度将会比沿着其他方向慢很多。(m代表离线性依赖的距离)
和上述情况一样,线性依赖也导致了模型的有效维度减少。
未完待续.....