优化器方法-GC

最近看到一篇博客,将LookAheadRAdam结合产生了一个新的算法——Ranger,获得了比单独使用RAdam要好的效果。后来有人将LARS与Ranger结合,效果取得了进一步提升。最近Ranger的提出者又将GC(Gradient Centralization)方法与Ranger结合,也取得了比Ranger好的效果。这里我会分四篇文章分享我个人在阅读这四个方法对应的论文时的总结和体会。由于LookAhead优化器与SWA比较相似,所以还会开辟一篇文章介绍SWAFast SWA优化器。本篇文章为系列文章第四篇。

方法

Batch Normalization(BN)和Weight Standardization (WS)都可以提高模型的泛化能力和训练速度,之前的文献对BN和WS的理论分析指出二者都使得梯度具有更好的Lipschitz平滑性(Lipschitz smooth的介绍),并使得权重空间路径更加平滑,从而可以提升模型训练的稳定性。这两个方法分别是对激活值和权重进行Z-score标准化。从这两个方法得到灵感,作者便尝试是不是也可以对梯度进行Z-score标准化,以提升模型训练效率。遗憾的是对梯度进行Z-score标准化并不能提升模型训练的稳定性,但是作者发现进行梯度中心化(Gradient Centralization, GC)处理却能提高模型的泛化能力和训练速度。作者分别从理论和实验角度论证了GC有效性。GC很简洁,可以轻易嵌入到已有优化算法中,下图是将GC加入到优化过程中的流程,以及GC在卷积层和全连接层的执行方式:

符号说明

W \in \mathbb{R}^{M*N} 表示网络某一层的权重,对于全连接层来说M=C_{in},N=C_{out},对于卷积层M=C_{in}*k_1*k_2,N=C_{out}k_1,k_2表示卷积核大小,C_{in}表示卷积核维度,C_{out}表示卷积核数量。用\textbf{w}_i \in \mathbb{R}^{M} (i=1,\dots,N)表示W的第i列,用\mathcal{L}表示目标函数,用\bigtriangledown_{ \textbf{w}_i} \mathcal{L}\bigtriangledown_{W} \mathcal{L}分别表示目标函数\mathcal{L}\textbf{w}_iW的(偏)导数。X表示某一层的输入特征值,W^TX表示输出。用\textbf{e} = \frac{1}{\sqrt{M}}\textbf{1}表示M维单位列向量,\textbf{I} \in \mathbb{R}^{M*M}表示单位矩阵。

GC计算公式

根据上面的符号,可以表示GC的计算公式:

\Phi_{GC}(\bigtriangledown_{ \textbf{w}_i} \mathcal{L}) = \bigtriangledown_{ \textbf{w}_i} \mathcal{L} - \frac{1}{M} \sum_{j=1}^{M}\bigtriangledown_{ \textbf{w}_i} \mathcal{L}

使用矩阵方式表示如下:
\Phi_{GC}(\bigtriangledown_{ \textbf{W}} \mathcal{L}) = P\bigtriangledown_{ \textbf{W}} \mathcal{L} , P=\textbf{I} - \textbf{e} \textbf{e}^T
从上面的公式可以看出,对于卷积层,中心化操作首先是计算每个卷积核的权重梯度均值,然后用卷积核中的每个权重梯度减去这个均值得到中心化后的权重梯度,对于全连接层则是对负责计算同一激活值的权重进行中心化。下面是官方实现的Pytorch版GC(x为某层权重):

x.add_(-x.mean(dim = tuple(range(1,len(list(x.size())))), keepdim = True))

可以看出GC是很简单的,这也体现在它很容易集成到目前以后的优化器中,下面是将GC集成到SGD和Adam中的算法流程:

GC理论分析

泛化作用

GC使得模型具有更好的泛化效果的原因是它能够对权重和特征空间进行正则化。

权重空间正则化

对上面的矩阵P使用简单的矩阵运算便可以得出下面的结论:

P^2 = P = P^T, e^T P \bigtriangledown_{ \textbf{w}}\mathcal{L} = 0
从上面的结论可以看出,实际上矩阵P是一个投影矩阵,其将梯度投影到以e^T为法向量的平面(投影后的向量为P \bigtriangledown_{ \textbf{w}}\mathcal{L})。作者指出,之前就有研究工作证明,梯度投影会起到将权重限制在一个超平面上(或称为黎曼流形),而GC便具有这样的能力。从下面的图中可以形象地看出,t时刻权重的更新方向总是在一个特定的超平面上,而这个超平面是由\textbf{e}^T(\textbf{w}^0 − \textbf{w}^t) = 0决定的,即权重的更新方向一直处于该超平面上(-P \bigtriangledown_{ \textbf{w}^t}\mathcal{L}),其实是由初始权重\textbf{w}^0和法向量\textbf{e}^T决定,\textbf{e}^T(\textbf{w} − \textbf{w}^t) = 0可由下面的推导得到:将公式\textbf{w}^1 = \textbf{w}^0 - P\bigtriangledown_{ \textbf{w}^0}\mathcal{L}中的\textbf{w}^0调整到等号左边,等式两边再同时左乘\textbf{e}^T,利用上面的结论,得\textbf{e}^T (\textbf{w}^1 - \textbf{w}^0 ) = - \textbf{e}^T P \bigtriangledown_{ \textbf{w}^0}\mathcal{L} = 0,不断做同样的推理可得\textbf{e}^T \textbf{w}^0 = \cdots = \textbf{e}^T \textbf{w}^t。这说明在训练中\textbf{e}^T \textbf{w}^t一直是个常量。从数学角度解释的话,具有GC的优化过程是带有对权重约束条件的优化过程:

\min_{w} \mathcal{L}(\textbf{w}), s.t. \textbf{e}^T(\textbf{w}^0 − \textbf{w}) = 0

输出(激活值)空间正则化

对于使用GC的SGD优化器,对于任意输入\textbf{x},权重具有下面的性质(详细证明见原论文):

(\textbf{w}^t)^T \textbf{x} - (\textbf{w}^t)^T(\textbf{x} + \gamma \textbf{1} ) = \gamma \textbf{1}^T \textbf{w}^0

该性质说明,当某层(卷积层或全连接层)的输出发生常量的强度变化(constant intensity change)时,经过权重计算后产生的输出变化只与初始权重\textbf{w}^0和标量\gamma有关(\gamma \textbf{1}^T \textbf{w}^0为缩放过的初始权重向量\textbf{w}^0的均值)。当初始权重\textbf{w}^0很小的时候,该变化就会很小,那么输出特征空间对训练样本变化具有一定的鲁棒性(不理解怎样的(噪声)变化会是\textbf{x} + \gamma \textbf{1}样子的?)。而实际上,不管是从头训练还是从ImageNet预训练模型开始训练,初始化的参数都是很小的,所以基本可以肯定GC具有对输出空间正则化的效果。

加快训练作用

之前的文献已经证明,BN和WS都具有可以平滑化优化参数空间路径的作用,从而使得训练更加稳定,即起到加速训练的作用。而有关BN和WS的文献指出, BN和WS的权重梯度和海森矩阵分别具有上界||\bigtriangledown_{ \textbf{w}}\mathcal{L}||_2||\bigtriangledown^2_{ \textbf{w}}\mathcal{L}||_2,这样的上界导致原始的损失函数具有更好的Lipschitz性质,从而使得优化过程更加平滑。作者证明GC也具有这样的性质(具体证明见原论文):

以上性质说明GC也具有加速训练的作用。

另外,作者还指出GC还具有梯度裁剪的作用,从而可以抑制梯度爆炸。

实验效果

作者在不同的视觉任务上做了全面实验,从而验证GC的有效性:

Mini-ImageNet上验证加速训练和提高测试集泛化的作用

CIFAR100上验证不同优化器和不同网络上的有效性

CIFAR100上验证不同的超参配置上的有效性

gc_7.png

大型数据集ImageNet上验证加速训练和提高测试集泛化的作用

细粒度分类数据集上验证有效性

对象检测和分割上验证有效性

从数据上看,GC在检测和分割上的表现并不是很出色,当然这也和任务的难度有关。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容