模型退化 2021-03-23

写一写我理解的模型退化

矩阵退化

首先来回顾一点线性代数中退化矩阵的知识,退化这个概念应该是类似线性代数中的退化矩阵,也叫奇异矩阵,特点是行列式为0,也就是说矩阵内* 存在线性相关的向量组 *。
什么是线性相关? 按照定义, 就是对于向量组 v 存在一组常数使这个等式成立。

a中至少存在一个非零常数,当只有一个非零常数时,这个常数对应的向量只能是0向量,所以零向量和任意向量都是线性相关的。当非零常数多于一个时,意味着向量组中至少存在一个向量可以表达为另一个向量的线性组合。矩阵越退化,奇异性越多,就存在更多这样的线性组合。

模型退化

那么,不太严谨的直观理解一下神经网络模型的退化就是,线性相关性增加,则提取到的特征也有很多重复相似的,本来神经网络为了应对复杂的任务而准备了庞大的参数量,但是矩阵退化导致很多参数形同虚设,难以获得更丰富的特征,模型的表达能力下降导致训练的损失难以下降。

举个例子吧,本来可以看整个人识人,现在只观察得到眼睛,虽然也能达到目的,可是总归不如综合考虑来得精确。


模型退化,导致提取到的特征单一化 (我瞎猜的)

2013年Saxe等人发现在随机初始化的深度神经网络中节点之间会出现线性相关的现象,而且这个现象随着深度加深而变得更严重。

造成模型退化的原因包括:

节点相等,
坏死,
线性相关。


(a)节点坏死(b)节点对称(c)节点线性相关

这会导致神经元相邻的权重identifiable不可辨认,我的理解就是权重得不到有效的更新。

减轻退化程度:

虽然模型退化是一个悬而未决的问题,但是其实,研究者们尝试过的很多方法,究其根本也是在超这个方向努力。

使用LeNet的s2,c3层的不完全连接,dropout技术,参数初始化方法,跳跃连接。
还有一点补充一下就是,ReLU可能会造成神经元坏死(永远无法激活的情况,权重的不到更新,脑细胞死了就是这种感觉。),而Leaky ReLU因为在左半平面也有梯度,就可以避免这个问题。


ReLU对比 LeakyReLU

参考:
https://severelytheoretical.wordpress.com/2018/01/01/why-is-it-hard-to-train-deep-neural-networks-degeneracy-not-vanishing-gradients-is-the-key/

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容