优化器方法-GC

最近看到一篇博客，将LookAhead和RAdam结合产生了一个新的算法——Ranger，获得了比单独使用RAdam要好的效果。后来有人将LARS与Ranger结合，效果取得了进一步提升。最近Ranger的提出者又将GC(Gradient Centralization)方法与Ranger结合，也取得了比Ranger好的效果。这里我会分四篇文章分享我个人在阅读这四个方法对应的论文时的总结和体会。由于LookAhead优化器与SWA比较相似，所以还会开辟一篇文章介绍SWA和Fast SWA优化器。本篇文章为系列文章第四篇。

方法

Batch Normalization（BN）和Weight Standardization （WS）都可以提高模型的泛化能力和训练速度，之前的文献对BN和WS的理论分析指出二者都使得梯度具有更好的Lipschitz平滑性（Lipschitz smooth的介绍），并使得权重空间路径更加平滑，从而可以提升模型训练的稳定性。这两个方法分别是对激活值和权重进行Z-score标准化。从这两个方法得到灵感，作者便尝试是不是也可以对梯度进行Z-score标准化，以提升模型训练效率。遗憾的是对梯度进行Z-score标准化并不能提升模型训练的稳定性，但是作者发现进行梯度中心化（Gradient Centralization, GC）处理却能提高模型的泛化能力和训练速度。作者分别从理论和实验角度论证了GC有效性。GC很简洁，可以轻易嵌入到已有优化算法中，下图是将GC加入到优化过程中的流程，以及GC在卷积层和全连接层的执行方式：

符号说明

用 $W \in \mathbb{R}^{M*N}$ 表示网络某一层的权重，对于全连接层来说 $M=C_{in},N=C_{out}$ ，对于卷积层 $M=C_{in}*k_1*k_2,N=C_{out}$ ， $k_1,k_2$ 表示卷积核大小， $C_{in}$ 表示卷积核维度， $C_{out}$ 表示卷积核数量。用 $\textbf{w}_i \in \mathbb{R}^{M} (i=1,\dots,N)$ 表示 $W$ 的第 $i$ 列，用 $\mathcal{L}$ 表示目标函数，用 $\bigtriangledown_{ \textbf{w}_i} \mathcal{L}$ 和 $\bigtriangledown_{W} \mathcal{L}$ 分别表示目标函数 $\mathcal{L}$ 对 $\textbf{w}_i$ 和 $W$ 的（偏）导数。 $X$ 表示某一层的输入特征值， $W^TX$ 表示输出。用 $\textbf{e} = \frac{1}{\sqrt{M}}\textbf{1}$ 表示 $M$ 维单位列向量， $\textbf{I} \in \mathbb{R}^{M*M}$ 表示单位矩阵。

GC计算公式

根据上面的符号，可以表示GC的计算公式：

$\Phi_{GC}(\bigtriangledown_{ \textbf{w}_i} \mathcal{L}) = \bigtriangledown_{ \textbf{w}_i} \mathcal{L} - \frac{1}{M} \sum_{j=1}^{M}\bigtriangledown_{ \textbf{w}_i} \mathcal{L}$

使用矩阵方式表示如下：
$\Phi_{GC}(\bigtriangledown_{ \textbf{W}} \mathcal{L}) = P\bigtriangledown_{ \textbf{W}} \mathcal{L} ， P=\textbf{I} - \textbf{e} \textbf{e}^T$
从上面的公式可以看出，对于卷积层，中心化操作首先是计算每个卷积核的权重梯度均值，然后用卷积核中的每个权重梯度减去这个均值得到中心化后的权重梯度，对于全连接层则是对负责计算同一激活值的权重进行中心化。下面是官方实现的Pytorch版GC（x为某层权重）：

x.add_(-x.mean(dim = tuple(range(1,len(list(x.size())))), keepdim = True))

可以看出GC是很简单的，这也体现在它很容易集成到目前以后的优化器中，下面是将GC集成到SGD和Adam中的算法流程：

GC理论分析

泛化作用

GC使得模型具有更好的泛化效果的原因是它能够对权重和特征空间进行正则化。

权重空间正则化

对上面的矩阵 $P$ 使用简单的矩阵运算便可以得出下面的结论：

$P^2 = P = P^T, e^T P \bigtriangledown_{ \textbf{w}}\mathcal{L} = 0$
从上面的结论可以看出，实际上矩阵 $P$ 是一个投影矩阵，其将梯度投影到以 $e^T$ 为法向量的平面（投影后的向量为 $P \bigtriangledown_{ \textbf{w}}\mathcal{L}$ ）。作者指出，之前就有研究工作证明，梯度投影会起到将权重限制在一个超平面上（或称为黎曼流形），而GC便具有这样的能力。从下面的图中可以形象地看出， $t$ 时刻权重的更新方向总是在一个特定的超平面上，而这个超平面是由 $\textbf{e}^T(\textbf{w}^0 − \textbf{w}^t) = 0$ 决定的，即权重的更新方向一直处于该超平面上（ $-P \bigtriangledown_{ \textbf{w}^t}\mathcal{L}$ ），其实是由初始权重 $\textbf{w}^0$ 和法向量 $\textbf{e}^T$ 决定， $\textbf{e}^T(\textbf{w} − \textbf{w}^t) = 0$ 可由下面的推导得到：将公式 $\textbf{w}^1 = \textbf{w}^0 - P\bigtriangledown_{ \textbf{w}^0}\mathcal{L}$ 中的 $\textbf{w}^0$ 调整到等号左边，等式两边再同时左乘 $\textbf{e}^T$ ，利用上面的结论，得 $\textbf{e}^T (\textbf{w}^1 - \textbf{w}^0 ) = - \textbf{e}^T P \bigtriangledown_{ \textbf{w}^0}\mathcal{L} = 0$ ，不断做同样的推理可得 $\textbf{e}^T \textbf{w}^0 = \cdots = \textbf{e}^T \textbf{w}^t$ 。这说明在训练中 $\textbf{e}^T \textbf{w}^t$ 一直是个常量。从数学角度解释的话，具有GC的优化过程是带有对权重约束条件的优化过程：

$\min_{w} \mathcal{L}(\textbf{w}), s.t. \textbf{e}^T(\textbf{w}^0 − \textbf{w}) = 0$

输出（激活值）空间正则化

对于使用GC的SGD优化器，对于任意输入 $\textbf{x}$ ，权重具有下面的性质（详细证明见原论文）：

$(\textbf{w}^t)^T \textbf{x} - (\textbf{w}^t)^T(\textbf{x} + \gamma \textbf{1} ) = \gamma \textbf{1}^T \textbf{w}^0$

该性质说明，当某层（卷积层或全连接层）的输出发生常量的强度变化（constant intensity change）时，经过权重计算后产生的输出变化只与初始权重 $\textbf{w}^0$ 和标量 $\gamma$ 有关（ $\gamma \textbf{1}^T \textbf{w}^0$ 为缩放过的初始权重向量 $\textbf{w}^0$ 的均值）。当初始权重 $\textbf{w}^0$ 很小的时候，该变化就会很小，那么输出特征空间对训练样本变化具有一定的鲁棒性（不理解怎样的（噪声）变化会是 $\textbf{x} + \gamma \textbf{1}$ 样子的？）。而实际上，不管是从头训练还是从ImageNet预训练模型开始训练，初始化的参数都是很小的，所以基本可以肯定GC具有对输出空间正则化的效果。

加快训练作用

之前的文献已经证明，BN和WS都具有可以平滑化优化参数空间路径的作用，从而使得训练更加稳定，即起到加速训练的作用。而有关BN和WS的文献指出， BN和WS的权重梯度和海森矩阵分别具有上界 $||\bigtriangledown_{ \textbf{w}}\mathcal{L}||_2$ 和 $||\bigtriangledown^2_{ \textbf{w}}\mathcal{L}||_2$ ，这样的上界导致原始的损失函数具有更好的Lipschitz性质，从而使得优化过程更加平滑。作者证明GC也具有这样的性质（具体证明见原论文）：