深度学习中的优化问题

1. 文章

An overview of gradient descent optimization algorithms

2. 概要

梯度优化算法，作为各大开源库（如Tensorflow，Keras，PyTorch等）中重要的黑盒子，在网络训练中至关重要，拥有很强的魔力（实用性），但官网一般很少介绍各种梯度优化算法变种的原理。作者在这篇文章里，介绍了不同优化算法的基本原理，旨在让读者知道每个优化算法的利弊和适用的场景，也涉及了一些在并行化和分布式下的结构形式。

3. 前言

对于优化神经网络而言，梯度下降是目前最主流、最常见的算法，目前几乎所有的开源库都包含丰富的梯度优化算法，如Adam、Adagrad，SGD，RMSprop等。作者在文章依次介绍了当前常见的算法参数更新原理，并给出了自己的一些见解。

在给定神经网络时，梯度下降被用来最小化目标函数J(θ)，通过不断往负梯度方向更新网络参数。学习率η用来确定每次更新多大的梯度步长。换句话说，我们总是沿着目标函数的斜坡往下走，直到到达一个山谷（局部最优解或者最优解）。

4. 梯度下降

4.1 Batch gradient descent

又称Vanilla gradient descent，通过计算整个训练样本的梯度来更新参数θ：

image

因为我们需要计算所有的训练数据的梯度，进行一次参数更新，因此BGD非常慢，无法处理内存放不下数据的情况，也无法进行在线更新。

for i in range(nb_epochs):
        params_grad = evaluate_gradient(loss_function, data, params)
        Params = params - learning_rate * params_grad

目前各大框架都支持梯度的自动求导，如果要自己实现求导，最好做一下梯度检查。

4.2 随机梯度下降（Stochastic gradient descent）

随机梯度下降，每次选取一个样本进行参数更新：

image

BGD存在着梯度冗余计算的问题——在每个参数更新之前，重复计算了相同的样本梯度。SGD通常速度更快一些，可用于在线更新。但是因为SGD每次仅用一个样本进行频繁的参数更新，可能导致目标函数值震荡比较厉害，如下图：

image

4.3 Mini-Batch gradient descent

MBGD结合了上述两个基本算法的优点，每次借助batch_size个样本进行参数更新：

image

降低了参数跟新的波动方差，保证稳定收敛
在计算batch样本的梯度更新参数时，可以借助矩阵运算，非常高效
batch_size一般在50~256，根据不同的任务取值不同
batch是很经典的思想，在后文中提到的SGD，均指支持batch的SGD

for i in range(nb_epochs):
        np.random.shuffle(data)
        for batch in get_batches(data, batch_sizes=50):
                params_grad = evaluate_gradient(loss_function, batch, params)
                Params = params - learning_rate * params_grad

4.4 存在的挑战

mini-batch梯度下降算法并不能保证能收敛到一个很好解上，主要面临以下几个问题：

很难选择一个合适的学习率η。学习率太小则收敛特别慢，学习率太大，会导致在最优解附近震荡，甚至偏离最优解得到局部最优解
自适应学习率调度，能够在训练过程不断调整学习率的大小。根据预定义的降级参数，可以训练的不同阶段，递减的降低学习率的大小（衰减因子），但是在何时，以何种尺度衰减学习率，同样是一个难题。
此外，所有的参数共享同一学习率η。如果训练数据是稀疏的，特征具有不同的频次，这时我们并不想以同样的步长更新参数，更希望对很少出现的特征对应的参数，进行更大步长的更新。
另一个重要问题是，在神经网络里常常是严重非凸的误差函数，如果避免落入局部最优解？Dauphin等人认为局部最优解并不是最棘手问题——鞍点才是，在鞍点处，梯度接近为0，在用SGD时，很难保证能逃离鞍点区域。

5. 优化算法

作者介绍了目前常见的优化算法，这里不讨论在高维数据中无法技术实现的算法，如拟牛顿法。

5.1 动量法（Momentum）

SGD在目标函数的“峡谷”处常出现震荡难以快速收敛的问题，如下图所示，在每一次更新时，损失函数会在峡谷处来回摆动。动量法的思想在于通过阻尼这种往复“摆动”，保持SGD在相对不变方便的动量，以加速收敛速度——抵消峡谷两侧的动量，维护向谷底运动的动量。

image

γ通常取0.9。实质上，当我们使用动量法时，就像从山上推下一个球，球会逐渐累积往山谷滚的动量，越滚越快。在参数更新中，动量会对指向相同方向的维度对应的参数进行持续更新，约束梯度方向总是改变的维度参数，尽可能引导损失函数向“谷底”收敛。

image

5.2 Nesterov accelerated gradient（NAG）

但是，让“球”无脑地沿着斜坡向下滚并不总能得到让人满意的解。我们更希望有这样的一个小球，它能够对下一步怎么滚有个基本的“主见“，在滚过斜坡遇到上坡时，能够减速，防止越过最优解。

NAG则在动量法的基础上引入了”预测“的功能。在动量法中，我们用γv_{t-1}更新参数θ。通过计算θ-γv_{t-1}处的梯度，可以对下一个位置的走向做一个初步的预估：

image

依旧设γ在0.9左右。当动量法第一次计算当前梯度时（短蓝线），并在累积梯度方向上进行了一大步参数更新（长蓝线）；NAG是首先在之前的梯度方向上走了一大步（棕色线），然后在此位置上评估一下梯度，最后做出一个相对正确的参数更新（绿线）。这种“先知”更新方法可以避免走过头而逃离了最优解——这在RNN相关的各种任务中收益甚好。

以上的参数更新策略同样可以适用于SGD。

5.3 Adagrad

Adagrad可以自适应的调节学习率：对于很少更新的参数采用较大的学习率，对于频繁更新的参数采取更小的学习率——非常适合处理稀疏的数据。谷歌的Dean等人发现，在使用它训练大规模神经网络时，Adagrad很大程度上提升了SGD的鲁棒性。同时，Penningto等人用它来训练GloVe词嵌入模型，因为低频词相对高频词需要更大的学习步长。

在之前的优化算法中，我们对所有的参数θ采取了相同的学习η。Adagrad在不同训练的step t中，对不同的参数θi应用不同的学习率。我们先看每个参数是怎么更新的，在进行向量表示。为了简要起见，令g(t,i)为在step t下参数θi的梯度：

image

SGD在每一步t对参数θi的更新：

image

Adagrad修正了上述的更新量，考虑了历史梯度的信息：

image

其中Gt是一个对角矩阵，在(i, i)处的元素表示到step t时历史θi的梯度平方和。分母下的常量是平滑因子（一般取1e-8）。值得注意的是，没有平方根运算时，算法性能会很差。

Adagrad的好处在于，它避开了人工调参学习率的问题，绝大部分开源库实现只需要在开始的时候设置η=0.01即可。

主要缺点在于它累积了历史梯度作为分母：因为每一个新梯度平方后都是非负值，在训练过程中，分母会越来越大，导致学习率整体会减小直至最后无限小——意味着算法不再能够学习到新的知识。后续算法会解决这个问题的。

5.4 Adadelta

Adadelta是Adagrad的一种拓展形式——Adadelta仅考虑了一个历史时间窗口w下的累积梯度（在实现上并非存储历史梯度，而是借助衰减因子），避免了Adagrad中学习率总是单调递减的问题。
在t步时的平均梯度，取决于历史累积梯度和当前梯度（衰减因子作为trade-off）：

image

γ值类似之前动量法中的因子，通常取0.9。简单期间，我们重写一下SGD的参数更新公式：

image

在Adagrad优化算法中，上两式变为：

image

我们把Gt替换为历史梯度的衰减平方:

image

对于分母，刚好是梯度的均方根误差，则上式变为：

image

作者指出：the units is this update(as well as in SGD, Momentum, or Adagrad) do not match, i.e. the update should have the same hypothetical units as the paramter. 因此，则定义了另一个指数衰减方式——参数平方更新，而非梯度的平方。

image

因此，参数更新的的均方根误差为：

image

但是RMS[delt(θ)t]是未知的，我们借助先前step的参数更新的估计值逼近。则在之前的更新规则中用RMS[delt(θ)t-1]代替学习率：

image

在 Adadelta优化算法中，并不需要我们设置学习率的初始值，η会自动根据更新规则进行估计。

5.5 RMSprop

RMSprop是Hinton在他的Coursera课程上提出的（未公布）的自适应学习率的梯度优化方法。它和Adadelta关注和解决的问题是一样的——学习率的单调递减问题。

image

Hinton 建议γ设置为0.9，初始学习率建议设置为0.001

5.6 Adam

Adaptive Moment Estimation(Adam)，是另一种针对每个参数自适应调整学习率η的优化算法。除了会衰减累积历史的梯度平方和（类似Adadelta, RMSprop），Adam还会保存历史梯度的衰减累积和，类似动量的概念：

image

Mt和vt分别是梯度的一阶、二阶估计，并在训练开始时被初始为0，Adam的作者观察到这两值偏置接近0，尤其在初始化前后且两个beta的取值接近1时（衰减率很小）。
计算两个和梯度相关变量的无偏估计值：

image

进行参数更新：

image

作者提出beta1的值建议0.9，beta2的值建议0.999，平滑因子设置为1e-8。经验上来讲，在实际使用中Adam相对于其他自适应学习率优化算法，效果要更好一点

5.7 AdaMax

在Adam中vt的更新规则类似于在历史的梯度上应用了L2正则：

image

我们可以基于此扩展成Lp正则：

image

但是p值取得过大可能导致数值不稳定——这也是为什么实际使用中L1和L2才比较常见。但是，当p=无穷大时也具有稳定行为。基于此，作者提出了AdaMax，为了避免与Adam混淆，我们使用ut表示无穷正则约束：

image

我们将ut代替之前Adam更新公式中vt的平方根：

image

需要指出的是，ut依赖于max操作，因此并不像Adam中的vt和mt那样偏置接近于0，这也是为什么我们不要计算ut的bias correction的原因。建议η=0.002，beta1=0.9，beta2=0.999

5.8 Nadam

正如上述所见，Adam可以看做是RMSprop和动量法的结合，NAG是动量法的高阶版本。而Nadam(Nesterov-accelerated Adaptive Moment Estimation)则可以看做是Adam和NAG的组合版本。为了把NAG整合进Adam里，我们需要修正一下动量mt的计算方式。
首先，我们先回顾下动量法的更新公式：