常用优化器算法归纳介绍

优化器是神经网络训练过程中，进行梯度下降以寻找最优解的优化方法。不同方法通过不同方式（如附加动量项，学习率自适应变化等）侧重于解决不同的问题，但最终大都是为了加快训练速度。

这里就介绍几种常见的优化器，包括其原理、数学公式、核心思想及其性能；

这些优化器可分为三大类：

基本梯度下降法，包括标准梯度下降法(GD, Gradient Descent)，随机梯度下降法(SGD, Stochastic Gradient Descent)、批量梯度下降法(BGD, Batch Gradient Descent)、（MBGD，Mini-Batch Gradient Descent）；

动量优化法，包括标准动量优化方法（MomentumOptimizer)、牛顿加速梯度动量优化方法(NAG, Nesterov accelerated gradient)等；

自适应学习率优化算法，包括AdaGrad算法， Adadelta算法，RMSProp算法，Adam算法等；

1. 基本梯度下降法

核心思想：即针对每次输入的训练数据，计算输出预测与真值的Loss的梯度；

1.1 标准梯度下降法（GD，Gradient Descent）

$W_{t+1}=W_{t}-\eta_{t} \Delta J\left(W_{t}\right)$

其中 $\scriptstyle W_t$ 表示当前时刻网络中的变量（包括权重weights、偏置biases和卷积核等），即参与梯度下降的变量； $\scriptstyle W_{t+1}$ 表示更新后的变量；

$\scriptstyle \eta_t$ 表示学习率；

$\scriptstyle J$ 是损失函数（即所有样本 $\scriptstyle X$ 的预测值与真实值的Loss），则 $\scriptstyle ΔJ(W_t)$ 表示损失函数 $\scriptstyle J$ 对 $\scriptstyle W_t$ 中的变量的偏导；

从表达式来看，网络中参数的更新，是不断向着最小化Loss函数的方向移动的：

优点:
简单易懂，即对于相应的最优解（这里认为是Loss的最小函数），每次变量更新都是沿着局部梯度下降最快的方向，从而最小化损失函数。

缺点:

如上图所示，局部梯度下降最大的方向，并非一定是最优解的方向，并且每次训练都要遍历所有样本，导致训练速度较慢；
容易陷入局部最优点，即落入鞍点；此时每次计算时，梯度都为0或者是一个很小的数，导致被困在局部最优点，而不能到达全局最优点；
注意有的文章认为，由于输入变量的维度一般较高，很少存在或者说很少能够陷入每一维都是局部最优点构成的鞍点，因此这里存疑；

在这里插入图片描述

1.2 批量梯度下降法（BGD, Batch Gradient Descent）

$W_{t+1}=W_{t}-\eta_{t} \sum_{i=1}^{n} \Delta J_{i}\left(W_{t}, X^{(i)}, Y^{(i)}\right)$

$\scriptstyle X^{(i)},Y^{(i)}$ 是一个mini-batch 的输入数据和真实标签；

$\scriptstyle ΔJ(W_t)$ 是这个 mini-batch 的数据的Loss；

不同于标准梯度下降法（Gradient Descent）一次计算所有数据样本的Loss并计算相应的梯度，批量梯度下降法（BGD, Batch Gradient Descent）每次只取一个小批次的数据及其真实标签进行训练，称这个批次为mini-batch；

优点：

每次使用一个batch可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。
由于矩阵的并行计算，训练速度并不会比每次训练单个样本慢；
加快模型收敛速度；

缺点：
随机梯度下降法的 batch size 选择不当可能导致模型难以收敛；由于这种方法是在一次更新中，就对整个数据集计算梯度，所以计算起来非常慢，遇到很大量的数据集也会非常棘手，而且不能投入新数据实时更新模型。

for i in range(nb_epochs):
      params_grad = evaluate_gradient(loss_function, data, params)
      params = params - learning_rate * params_grad

我们会事先定义一个迭代次数 epoch，首先计算梯度向量 params_grad，然后沿着梯度的方向更新参数 params，learning rate 决定了我们每一步迈多大。

Batch gradient descent 对于凸函数可以收敛到全局极小值，对于非凸函数可以收敛到局部极小值。

1.3 随机梯度下降法（SGD，Stochastic Gradient Descent）

$W_{t+1}=W_{t}-\eta_{t} g_{t}$

$\scriptstyle g_t$ 是单个样本对权重等参数的偏导；

和 BGD 的一次用所有数据计算梯度相比，SGD 每次更新时对每个样本进行梯度更新，对于很大的数据集来说，可能会有相似的样本，这样 BGD 在计算梯度时会出现冗余，而 SGD 一次只进行一次更新，就没有冗余，而且比较快，并且可以新增样本。

即训练时，每次只从一批训练样本中随机选取一个样本进行梯度下降；对随机梯度下降来说，只需要一次关注一个训练样本，一点点把参数朝着全局最小值的方向进行修改了。

for i in range(nb_epochs):
    np.random.shuffle(data)
    for example in data:
        params_grad = evaluate_gradient(loss_function, example, params)
        params = params - learning_rate * params_grad

整体数据集是个循环，其中对每个样本进行一次参数更新

缺点：

梯度下降速度比较慢，而且每次梯度更新时往往只专注与局部最优点，而不会恰好指向全局最优点；

单样本梯度更新时会引入许多噪声（跟训练目标无关的特征也会被归为该样本分类的特征）；

SGD 因为更新比较频繁，会造成 cost function 有严重的震荡。

BGD 可以收敛到局部极小值，当然 SGD 的震荡可能会跳到更好的局部极小值处。

当我们稍微减小 learning rate，SGD 和 BGD 的收敛性是一样的。

优点：

当处理大量数据时，比如SSD或者faster-rcnn等目标检测模型，每个样本都有大量候选框参与训练，这时使用随机梯度下降法能够加快梯度的计算。

随机梯度下降是通过每个样本来迭代更新一次，如果样本量很大的情况，那么可能只用其中部分的样本，就已经将 $\scriptstyle W$ 迭代到最优解了，对比上面的批量梯度下降，迭代一次需要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次。缺点是SGD的噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。所以虽然训练速度快，但是准确度下降，并不是全局最优。虽然包含一定的随机性，但是从期望上来看，它是等于正确的导数的。

1.4 Mini-Batch Gradient Descent （MBGD）

梯度更新规则：

MBGD 每一次利用一小批样本，即 n 个样本进行计算，这样它可以降低参数更新时的方差，收敛更稳定，另一方面可以充分地利用深度学习库中高度优化的矩阵操作来进行更有效的梯度计算。

$\theta=\theta-\eta \cdot \nabla_{\theta} J\left(\theta ; x^{(i: i+n)} ; y^{(i: i+n)}\right)$

和 SGD 的区别是每一次循环不是作用于每个样本，而是具有 n 个样本的批次。

for i in range(nb_epochs):
    np.random.shuffle(data)
    for batch in get_batches(data, batch_size=50):
        params_grad = evaluate_gradient(loss_function, batch, params)
        params = params - learning_rate * params_grad

超参数设定值: n 一般取值在 50～256

缺点：（两大缺点）

不过 Mini-batch gradient descent 不能保证很好的收敛性，learning rate 如果选择的太小，收敛速度会很慢，如果太大，loss function 就会在极小值处不停地震荡甚至偏离。（有一种措施是先设定大一点的学习率，当两次迭代之间的变化低于某个阈值后，就减小 learning rate，不过这个阈值的设定需要提前写好，这样的话就不能够适应数据集的特点。）对于非凸函数，还要避免陷于局部极小值处，或者鞍点处，因为鞍点周围的error是一样的，所有维度的梯度都接近于0，SGD 很容易被困在这里。（会在鞍点或者局部最小点震荡跳动，因为在此点处，如果是训练集全集带入即BGD，则优化会停止不动，如果是mini-batch或者SGD，每次找到的梯度都是不同的，就会发生震荡，来回跳动。）
SGD对所有参数更新时应用同样的 learning rate，如果我们的数据是稀疏的，我们更希望对出现频率低的特征进行大一点的更新。LR会随着更新的次数逐渐变小。

鞍点就是：一个光滑函数的鞍点邻域的曲线，曲面，或超曲面，都位于这点的切线的不同边。例如这个二维图形，像个马鞍：在x-轴方向往上曲，在y-轴方向往下曲，鞍点就是（0，0）。

image.png

为了应对上面的两点挑战就有了下面这些算法

2. 动量优化法

2.1 Momentum算法

核心思想：

动量优化方法是在梯度下降法的基础上进行的改变，具有加速梯度下降的作用；

其核心思想就是，使当前训练数据的梯度受到之前训练数据的梯度的影响，其中之前的梯度乘上一个权重值λ（λ<1），就成为动量项（注意这里把梯度看作了有方向的向量）。而且随着迭代次数的增加，越往前的梯度对当前梯度的影响就越小。

不使用动量优化时，每次训练的梯度下降方向，都是按照当前批次训练数据计算的，可能并不能代表整个数据集，并且会有许多噪声，下降曲线波动较大：

添加动量项之后，能够有效减小波动，从而加快训练速度：

$\left\{\begin{array}{l} v_{t}=\alpha v_{t-1}+\eta_{t} \Delta J\left(W_{t}, X^{\left(i_{s}\right)}, Y^{\left(i_{s}\right)}\right) \\ W_{t+1}=W_{t}-v_{t} \end{array}\right.$

$\scriptstyle v_t$ 的计算如图，是上一次训值练的 $\scriptstyle v_{t-1} × 衰减率α + 学习率η × 损失函数的偏导$ ；
其中 $\scriptstyle v_t$ 是 t 时刻权重更新的值，即 $\scriptstyle w_t+1 = W_t - v_t$ ；衰减率 $\scriptstyle α$ 通常取0.9；

当我们将一个小球从山上滚下来时，没有阻力的话，它的动量会越来越大，但是如果遇到了阻力，速度就会变小。
加入的这一项，可以使得梯度方向不变的维度上速度变快，梯度方向有所改变的维度上的更新速度变慢，这样就可以加快收敛并减小震荡。

优点：

通过动量更新，参数向量会在有持续梯度的方向上增加速度；
使梯度下降时的折返情况减轻，从而加快训练速度；

缺点：

如果数据集分类复杂，会导致 $\scriptstyle V_{t-1}$ 和 $\scriptstyle t$ 时刻梯度向量方向相差较大；在进行向量求和时，得到的 $\scriptstyle V_t$ 会非常小，反而使训练速度大大下降甚至模型难以收敛。

这种情况相当于小球从山上滚下来时是在盲目地沿着坡滚，如果它能具备一些先知，例如快要上坡时，就知道需要减速了的话，适应性会更好。

2.2 牛顿加速梯度动量优化方法(NAG, Nesterov accelerated gradient)

$\left\{\begin{array}{l} v_{t}=\alpha v_{t-1}+\eta_{t} \Delta J\left(W_{t}-\alpha v_{t-1}\right) \\ W_{t+1}=W_{t}-v_{t} \end{array}\right.$

如图，蓝色的是Momentum梯度动量优化法的下降方向，即如果多次梯度累计方向大致相同，会导致最终下降步幅过大；会先计算当前的梯度，然后在更新后的累积梯度后会有一个大的跳跃。

NAG 会先在前一步的累积梯度上(brown vector)有一个大的跳跃，然后衡量一下梯度做一下修正(red vector)，这种预期的更新可以避免我们走的太快。

NAG 可以使 RNN 在很多任务上有更好的表现。

目前为止，我们可以做到，在更新梯度时顺应 loss function 的梯度来调整速度，并且对 SGD 进行加速。

3. 自适应学习率优化算法

核心思想：

自适应学习率优化算法针对于机器学习模型的学习率，采用不同的策略来调整训练过程中的学习率，从而大大提高训练速度。

3.1 Adagrad （Adaptive gradient algorithm）

这个算法就可以对低频的参数做较大的更新，对高频的做较小的更新，也因此，对于稀疏的数据它的表现很好，很好地提高了 SGD 的鲁棒性，例如识别 Youtube 视频里面的猫，训练 GloVe word embeddings，因为它们都是需要在低频的特征上有更大的更新。

梯度更新规则:

$\theta_{t+1, i}=\theta_{t, i}-\frac{\eta}{\sqrt{G_{t, i i}+\epsilon}} \cdot g_{t, i}$

其中 $\scriptstyle g$ 为： $\scriptstyle t$ 时刻参数 $\scriptstyle θ_i$ 的梯度
$g_{t, i}=\nabla_{\theta} J\left(\theta_{i}\right)$

如果是普通的 SGD，那么 $\scriptstyle θ_i$ 在每一时刻的梯度更新公式为：
$\theta_{t+1, i}=\theta_{t, i}-\eta \cdot g_{t, i}$

但这里的 learning rate $\scriptstyle η$ 也随 $\scriptstyle t$ 和 $\scriptstyle i$ 而变：
$\theta_{t+1, i}=\theta_{t, i}-\frac{\eta}{\sqrt{G_{t, i i}+\epsilon}} \cdot g_{t, i}$
其中 $\scriptstyle G_t$ 是个对角矩阵， $\scriptstyle (i,i)$ 元素就是 $\scriptstyle t$ 时刻参数 $\scriptstyle θ_i$ 的梯度平方和。

Adagrad 的优点是减少了学习率的手动调节

式中， $\scriptstyle i$ 表示第 $\scriptstyle i$ 个分类， $\scriptstyle t$ 表示第 $\scriptstyle t$ 迭代同时也表示分类 $\scriptstyle i$ 累计出现的次数。 $\scriptstyle η$ 表示初始的学习率取值（一般为0.01）

AdaGrad的核心思想：缩放每个参数反比于其所有梯度历史平均值总和的平方根。具有代价函数最大梯度的参数相应地有较大的学习率，而具有小梯度的参数又较小的学习率。

缺点：

它的缺点是分母会不断积累，这样学习率就会收缩并最终会变得非常小。

3.2 Adadelta

这个算法是对 Adagrad 的改进，

和 Adagrad 相比，就是分母的 $\scriptstyle G$ 换成了过去的梯度平方的衰减平均值，指数衰减平均值

$\Delta \theta_{t}=-\frac{\eta}{\sqrt{E\left[g^{2}\right]_{t}+\epsilon}} g_{t}$

这个分母相当于梯度的均方根 root mean squared (RMS)，在数据统计分析中，将所有值平方求和，求其均值，再开平方，就得到均方根值，所以可以用 RMS 简写：

$\Delta \theta_{t}=-\frac{\eta}{R M S[g]_{t}} g_{t}$

其中 $\scriptstyle E$ 的计算公式如下， $\scriptstyle t$ 时刻的依赖于前一时刻的平均和当前的梯度：

$E\left[g^{2}\right]_{t}=\gamma E\left[g^{2}\right]_{t-1}+(1-\gamma) g_{t}^{2}$

梯度更新规则:

此外，还将学习率 $\scriptstyle η$ 换成了 RMS[Δθ]，这样的话，我们甚至都不需要提前设定学习率了：

$\begin{array}{l} \Delta \theta_{t}=-\frac{R M S[\Delta \theta]_{t-1}}{R M S[g]_{t}} g_{t} \\ \theta_{t+1}=\theta_{t}+\Delta \theta_{t} \end{array}$

超参数设定值: $\scriptstyle \gamma$ 一般设定为 0.9

3.3 RMSprop

RMSprop 是 Geoff Hinton 提出的一种自适应学习率方法。

RMSprop 和 Adadelta 都是为了解决 Adagrad 学习率急剧下降问题的，

梯度更新规则:

RMSprop 与 Adadelta 的第一种形式相同：（使用的是指数加权平均，旨在消除梯度下降中的摆动，与Momentum的效果一样，某一维度的导数比较大，则指数加权平均就大，某一维度的导数比较小，则其指数加权平均就小，这样就保证了各维度导数都在一个量级，进而减少了摆动。允许使用一个更大的学习率η）

$\begin{array}{l} E\left[g^{2}\right]_{t}=0.9 E\left[g^{2}\right]_{t-1}+0.1 g_{t}^{2} \\ \theta_{t+1}=\theta_{t}-\frac{\eta}{\sqrt{E\left[g^{2}\right]_{t}+\epsilon}} g_{t} \end{array}$