从Momentum、RMSprop到Adam

Momentum、RMSprop是两种对梯度下降法的改进方法，他们能够使梯度下降运行得更快，而Adam算法又是Momentum和RMSprop的结合，下面我们具体来看。

指数加权移动平均（EWMA）

要理解Momentum梯度下降，必须要理解指数加权移动平均，那么首先我们来看什么是移动平均。移动平均的本质是一种低通滤波，他的目的是过滤掉时间序列中的高频扰动，只保留低频趋势。假设我们有一个时间序列 $\{y_1,y_2,...,y_t,...\}$ 和某个过滤函数 $F$ ，在任意时刻 $t$ 低通滤波可以表示为时间序列 $y$ 和过滤函数 $F$ 在整个时域上的卷积

$x_t=\sum_{I=-\infty}^{\infty}F_iy_{t-i}$

在实际中用不到无穷多的数据，那么我们考虑一个滑动的长为 $T$ 的窗口

$x_t=\sum_{i=t-\frac{T-1}{2}}^{t+\frac{T-1}{2}}F_iy_{t-i}$

但是由于我们没有办法得到时间序列的未来数据（从 $t+1$ 到 $t+\frac{T-1}{2}$ 段），所以我们将这个窗口向前移动 $\frac{T-1}{2}$ ，于是

$x_t=\sum_{i=t-T+1}^{t} F_iy_{t-i}$

这样做就造成了这个滤波有滞后性（由于我们没有未来数据），即对于当前的数据不敏感，所以我们有了加权移动平均，即我们希望通过赋予当前数据更大的权重来使得该移动平均对当前数据变化更加敏感，如果我们用简单线性函数来进行加权，设加权函数

$F_i=\frac{2(T-t+i)}{T(T+1)}$

那么我们得到的移动加权平均为

$x_t = \sum_{i=1}^{t}F_iy_i=\frac{2(Ty_t+(T-1)y_{t-1}\cdots y_{t-T+1})}{T(T+1)}$

如果仅采用线性权重，所得移动加权平均仍然可能出现滞后性，这是因为 $t$ 之前的项衰减的不够快，所以我们引出指数加权平均，即加权函数 $F$ 指数衰减，设衰减因子为 $\beta$ ，有

$x_t=\sum_{i=t-T+1}^{t}\beta^{t-i}y_i$

如果写成递推的形式就是

$\begin{aligned}x_0&=0\\x_t &= \beta x_{t-1}+(1-\beta)y_t\end{aligned}$

这就是指数加权移动平均。

Momentum梯度下降（GD with Momentum)

Momentum梯度下降相较于梯度下降不同的地方在于：不再使用梯度作为学习步长，而是使用梯度的指数加权移动平均。即

$\begin{aligned}v_0 &= 0\\v_{t+1} &= \beta v_{t} +(1-\beta) \frac{\partial J }{\partial W_t}\\\Delta \vec{w}_{t+1} &= -\alpha v_{t+1}\end{aligned}$

很自然的一个问题是，这样做的好处是什么？接下来我们做一些定性的解释。假设我们要最小化的目标函数在初始化到极值点的范围内是凹的（convex），那么我们在模型上运行梯度下降的过程可能是

为什么会是这个样子？由于学习率 $\alpha$ 不可能做到无穷小，而目标函数 $J$ 的导数是不断变化的，所以在每一步梯度下降时，仅仅开始的那一点是朝着梯度的方向优化，而除了那一点后的其他点，优化的方向都不再是梯度的方向，而会有一个夹角。就如同在碗沿上放一个小球，给它一个横向初速度，那么由于速度的影响，小球运动的方向不会总是梯度的方向。

如上图，如果能够平均掉一些“纵向”的移动，那么学习率就能“贡献”更多给“横向”移动，那么梯度下降就会运行得更快。我们之前假设目标函数在我们优化域内是凹的（不是凹的也会近似成立），几次相邻的梯度下降时，图中“纵向”移动的部分很可能是相反的，我们采用指数加权移动平均把这些“纵向”部分平均掉一些，从而能加速算法，这就是定性地理解Momentum为什么有用。

在学习RMSprop之前，我们先看一下另外两个算法Rprop和AdaGrad，因为RMSprop是通过这两个算法改进的，了解这两个算法对于理解RMSprop很有帮助。

Rprop梯度下降

在运行学习算法的过程中，我们可能会陷入局部极小（local optimal）和鞍点（saddle point），事实上，由于参数空间维度通常较高，陷入局部极小的情况很少，而陷入鞍点几乎是一个普遍情况（特别在神经网络训练中），这样的坏处是，目标函数在一个（或几个）方向上梯度为0，而其余方向上不为0（甚至很大），那么参数就会在那些不为0的方向上摆动，导致优化效率很低，所以Rprop算法引入了梯度上下界，也就是说让梯度的大小至多（或至少）应该是多少，设 $\Delta w$ 为最终采用的梯度大小， $dw[t]$ 和 $dw[t-1]$ 分别是该步和上一步的梯度， $\Delta w_{max}$ 和 $\Delta w_{min}$ 分别是梯度上下限，那么Rprop可以表示为

$if\space dw[t] \cdot dw[t-1] >0:\quad \Delta w = min\{\Delta w_{max},\space \alpha \cdot \Delta w[t]\}$

$elif\space dw[t]\cdot dw[t-1]<0:\quad \Delta w =max\{\Delta w_{min},\space \alpha \cdot dw[t]\}$

直观理解就是，当梯度朝着一个方向前进时，将它约束在某个 $\Delta w_{max}$ 内，避免由于梯度过大产生的偏差太大；当梯度在某个点附近摆动时，将它约束在某个 $\Delta w_{min}$ 以上，给予它足够大的能量，让它能够摆脱局部最优。

AdaGrad梯度下降

AdaGrad也是为了解决鞍点和局部最优而出现的，是Rprop的一种改进。Rprop的缺点很明显，梯度容错率过低，如果存在一系列同号的梯度和突然的变号梯度，在所有同号梯度中，梯度会被削弱，而最后的变号梯度会被加强，如果变号梯度是由于计算错误导致的，那么这个错误将会被无限放大（特别是如果算出来的梯度本身就是很大的值的时候）。所以AdaGrad采用了累计平方梯度的思想，也就是用梯度自身的大小来约束梯度。

$\begin{aligned}S[t] &= S[t-1] + (dw[t])^2\\w [t] &= w[t-1]-\alpha\frac{dw[t]}{\delta+\sqrt{S[t]}}\end{aligned}$

其中 $\delta$ 是一个为了保证分母不过小的量。直观理解就是，对梯度的平方进行累计，将其方根作为一个正则化因子，这样，当 $dw[t]$ 过大的时候，它也较大， $dw[t]$ 较小的时候，它也较小，对梯度做了正则化，让它保持在某个范围内。

AdaGrad的缺点也是很明显的，随着训练的进行， $S[t]$ 会越来越大，这样梯度会逐渐减小，训练提前结束。

RMSprop梯度下降

RMSprop对AdaGrad做了一点改进，不再使用单纯的和累计，而是用了指数移动加权平均。

$\begin{aligned}S[t] &= \beta S[t-1] + (1-\beta)(dw[t])^2\\w [t] &= w[t-1]-\alpha\frac{dw[t]}{\delta+\sqrt{S[t]}}\end{aligned}$

这样做的好处就是，首先，可以通过调整 $\beta$ 来决定 $S[t]$ 对当前数据的敏感程度，其次由于指数移动平均加权就自带了正则化，所以 $S[t]$ 不会一直增大，而是会由加权窗口的数据平均决定，这样就很好地解决了问题。

Adam梯度下降

了解了Momentum，RMSprop，我们只要把他们结合起来就是著名的Adam算法。也就是

$\begin{aligned}v[0] &= 0\\v_[t] &= \beta v[t-1] +(1-\beta)dw[t]\\S[t] &= \beta S[t-1] + (1-\beta)(dw[t])^2\\w [t] &= w[t-1]-\alpha\frac{v[t]}{\delta+\sqrt{S[t]}}\end{aligned}$

对梯度项做了指数加权平均和正则化，这样这个算法就很健壮（robust）了。

至此，我们已经了解了Adam算法。迄今为止，由于它的健壮性，Adam算法还在广泛用于深度神经网络中，是一种很有效的算法。

最后编辑于：2019.08.17 14:26:09

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,820评论 6赞 515
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,648评论 3赞 399
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 168,324评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,714评论 1赞 297
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,724评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,328评论 1赞 310
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,897评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,804评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,345评论 1赞 318
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,431评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,561评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,238评论 5赞 350
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,928评论 3赞 334
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,417评论 0赞 24
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,528评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,983评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,573评论 2赞 359