基于梯度下降的优化算法

在上一篇文章 “梯度下降法、随机梯度下降法与小批量梯度下降法” 中，笔者较为详细地介绍了优化算法中的基础 —— 梯度下降。本文将站在更为宏观的角度，先简单介绍下什么是优化，再概览几种在梯度下降的基础上，进一步得到发展的优化算法。

1.什么是优化

简单来说，优化就是寻找使得目标函数最小的最优解。

在深度学习中，优化问题特指：寻找神经网络上的一组参数（或者说，权重） 𝜽，能够显著降低目标函数 𝑱(𝜽)。其中，目标函数可以由两部分构成：一是整个训练集上的性能评估，二是额外的正则化项。

如果目标函数仅考虑第一部分，那么，可进一步简化为：平均训练误差的最小化（或者说，训练集上期望损失的最小化）。其中，用于度量训练误差的计算公式，称作损失函数 (loss function) ，或代价函数 (cost function)。这种仅基于最小化平均训练误差的训练过程，称作经验风险最小化 (empirical risk minimization)。

经验风险的计算公式，如下：

其中，𝔼为在训练集经验分布下的期望，𝑳为损失函数，𝜽为权重，𝑓(𝔁;𝜽)为预测值，𝓎为真实值。

然而，过度追求平均训练误差的最小化，容易导致过拟合，使得模型的泛化能力下降。

此时，在平均训练误差的基础上，加上正则化项 (regularizer) ，也称惩罚项 (penalty term)，表示模型的复杂度，然后再对两部分之和进行最小化的训练过程，称作结构风险最小化 (structural risk minimization)。

2.常见的优化算法

2.1 随机梯度下降

详见文章：梯度下降法、随机梯度下降法与小批量梯度下降法

随机梯度下降 (SGD)，现广泛采用min-batch的方式实现。即，抽取m个小批量（独立同分布）样本，通过计算它们梯度均值，得到梯度的无偏估计。现今，常见的优化算法基本都是在此基础上实现的。

在深度学习中，小批量样本的抽取过程是，先shuffle训练集，再按照指定的batch_size遍历样本。其中，每遍历训练集中的所有样本一次，称训练经过了“一轮” (epoch)。

算法：

其中，𝛁 为梯度符号，𝒌为迭代次数，𝟄 为学习率，可随迭代次数调整。

效果：

梯度下降优化的等高线图

局限性：
为了提高收敛速度（训练速度）而增加步长（学习率），优化却发生困难。
体现在，优化轨迹的震荡较为明显。

增加步长，梯度下降优化的等高线图。

进一步增加步长，步长过大，优化反而更加艰难。体现在，优化轨迹的震荡更为明显。

步长过大，梯度下降优化的等高线图。

2.2 动量

出发点：
加速学习。

原理：
引入了速度向量 𝒗 ，以指数衰减的形式累计历史梯度。

也就是，之前的优化，其作用不会立刻消失，而是对后续的优化继续产生影响，但其梯度的贡献程度会发生衰减。

结果是，若当前时刻的梯度与历史时刻的梯度方向相似，那么，在当前时刻会加强这种趋势；若不同，则减弱这种趋势。

其中，速度 𝒗 为新引入的变量，表示参数移动的方向和速率。
因为动量 (momentum) 等于质量乘以速度，假设为单位质量，则向量 𝒗 可看作动量。

有动量超参数 𝛼 ∈ [0, 1) ，表示之前梯度的贡献衰减得有多快。
𝛼 越大，之前的梯度对现在方向的影响越大。
一般将该值设为0.5、0.9、0.99，分别表示最大速度2倍、10倍、100倍于SGD算法。

算法：

其中，𝛼 为动量参数，𝒗 为速度。

效果：
对比梯度下降优化的等高线图，增加了-x方向的训练速度。

动量优化的等高线图

2.3 Nesterov动量

出发点：
受 Nesterov 加速梯度算法 (Nesterov, 1983, 2004) 启发，Sutskever et al. (2013)
提出了动量算法的一个变种。

原理：
对比标准动量算法，相同点：
动量参数 𝛼 和学习率 𝟄 ，发挥类似的作用。

不同点：
梯度计算的方法。
Nesterov动量，先用当前速度 𝒗 更新参数，再用更新的临时参数计算梯度。

结果，在SGD下，Nesterov动量并没有改进收敛率，即，没有影响收敛的快慢。

算法：

2.4 自适应学习率

出发点：
神经网络优化的两大问题：
a. 学习率是难以设置的超参之一，对模型的性能有显著影响。
b. 损失通常高度敏感于参数空间的某些方向。

动量算法的局限性：
虽在一定程度上缓解了上述问题，但代价是引入了新的超参数。

思想：
对每个参数设置不同的学习率，在整个学习的过程中，自动适应这些学习率。

2.4.1 AdaGrad

原理：
先设置一个全局学习率 𝟄。那么，
单个参数的学习率为，全局学习率除以梯度的累积。

结果是，具有损失最大偏导的参数，其学习率下降的快，反之亦然。

在参数空间中更为平缓的倾斜方向会取得更大的进步。
即，因为平缓，梯度的累积较小，所以参数的学习率大，步长大。

算法：

其中，𝑟为梯度的累积，⊙为元素对应相乘，𝛿为小常数 (如10^-7)。

局限性：
使学习率过早、过量的减少，仅适用于凸优化。
当应用于非凸函数来训练神经网络时，学习率会在到达一个局部为凸的区域前就变得太小，从而影响收敛速度。

2.4.2 RMSProp

出发点：
AdaGrad算法的改进，解决非凸设定下的不适用问题。

原理：
在 AdaGrad 的基础上，将梯度的累积，改为指数加权的移动平均。
即，先前的梯度累积结果取小部分，当下的梯度取大部分，两者求和，得到新的累积结果。

其中，加权系数 𝜌 相当于一个衰减系数，用来控制历史信息获取的多少。从而使得过为久远的历史结果，在不断的加权迭代中被逐渐摒弃。

结果是，在非凸设定下有不错的效果。

算法：

其中，𝜌 为加权系数。

适用范围：
鉴于神经网络是非凸设定下的，RMSProp 已被证明是一种有效且实用的深度神经网络优化算法。目前，是深度学习从业者经常采用的优化方法之一。

2.4.3 Adam

原理：
可以看作带有偏差修正的 Momentum + RMSProp。

即，在 RMSProp 的基础上，参数更新的运算，由参数学习率乘以梯度，更改为参数学习率乘以梯度指数加权的移动平均，且增加了偏差的修正。

算法：

参考

【Book】Deep Learning (by Yoshua Bengio, Ian Goodfellow and Aaron Courville)
【CSDN】Deep Learning 之最优化方法
 【知乎】路遥知马力——Momentum
【知乎专栏】机器学习算法与自然语言处理：通俗理解指数加权平均

基于梯度下降的优化算法

1.什么是优化

2.常见的优化算法

2.1 随机梯度下降

2.2 动量

2.3 Nesterov动量

2.4 自适应学习率

2.4.1 AdaGrad

2.4.2 RMSProp

2.4.3 Adam

参考

推荐阅读更多精彩内容