优化方法总结

优化算法框架

神经网络模型中有多种优化算法,优化算法的作用用来优化更新参数。
对于优化算法而言,主要的框架如下。
参数:w 目标函数:f(w) 学习率\alpha
对于每个epoch t:
step1:计算当前梯度g_{t} = \nabla f_{w_t}
step2:计算动量。
     一阶动量:m_{t}=\phi(g_{1},g_{2},...,g_{t})
     二阶动量:V_{t}=Z(g_{1},g_{2},...,g_{t})
step3:计算当前时刻下降梯度 \eta_{t}=\alpha * \frac{m_{t}}{\sqrt{V_{t}}}
step4:更新参数 w_{t+1} = w_{t}-\eta_{t}
对于不同的优化算法而言,区别主要在于第一步和第二步。对于梯度的计算,一阶动量的计算,和二阶动量的计算存在差别。
三、四步的计算更新,各个算法之间都是相同的。

优化算法介绍

SGD

最常见的SGD
直接没有step2,没有引入动量。
m_t=g_1 V_{t}=I
在实际的实现中,可能会对学习率\alpha进行改变,会使用衰减学习率。
SGD的缺点是 1 收敛速度慢,2 有可能会困在局部最优解。

SGDM

也就是SGD+ Momentum。这里引入了一阶动量。
从直观理解就是加入了一个惯性,在坡度比较陡的地方,会有较大的惯性,这是下降的多。坡度平缓的地方,惯性较小,下降的会比较慢。
修改SGD中的一阶动量为
m_t=\beta_1 *m_{t-1}+(1-\beta_{1})*g_{t}
等式右边有两部分,加号左边的部分为之前积累的下降方向,加号右边为当前的梯度。两者的权重用参数来控制。
\beta越大,说明下降的方向越依赖于以往的惯性。可以减少方向的突变。

SGD+NAG

NAG是:Nesterov Accelerated Gradient
这里是针对SGD会陷在局部最优附近的缺点进行改进。
在前面针对收敛慢改,引进一阶动量后,这里着眼于step1里的梯度计算。通常\beta会设的比较大,这就说明下降方向主要由历史方向积累决定,那么在step1里,不看当前的梯度,而是看下一步时刻的梯度。直观理解为多看一步,计算下一步的梯度。
用下一个点的梯度下降方向,与历史累积动量结合,计算step2里的一阶动量。
计算公式如下
g_{t}=\nabla f(w_{t} - \alpha *\frac{m_{t-1}}{\sqrt{V_{t-1 } } })

AdaGrad

前面的优化算法主要着眼于一阶动量的设计,从AdaGrad开始,将引入二阶动量。参数的二阶动量在这里表示为当前维度上,历史积累的全部的梯度的平方和。
将step3里的公式修改一下顺序,那前面的部分可以看成学习率。这里的分母是二阶动量。这里的学习率(包含二阶动量)会随着二阶动量的积累而逐渐变化,这就是‘自适应学习’。
\eta_{t}=\frac{\alpha}{\sqrt{V_{t}}} *m_t
宏观来分析,这里参数更新时,希望从少更新的维度多学习,经常更新的参数那里少学习一点。对于频繁更新的的参数,二阶动量迅速积累,会使的学习率降低,那么在同一次更新中,模型会学到比较少的内容。而不频繁更新的参数,学习率会比较大,每次更新时学到的东西比较多。
Ada算法的缺点也很明显,二阶动量是历史梯度的积累,是个单调递增的值,当分母越来越大时,整个的学习率会趋于0,会提前停止学习。

AdaDelta / RMSProp

为了改进AdaGrad中的二阶动量会不断增加的缺点,这里提出了一个时间窗口。计算二阶动量的时候只计算这个时间窗口内的动量。避免了二阶动量的持续积累。
二阶动量的计算公式如下
V_t = \beta_ * V_{t-1} + (1- \beta)g_{t}^2

Adam

SGD-M 引入了一阶动量,AdaG 引入了二阶动量。
二者结合就是Adam,同时考虑一阶动量和二阶动量。
二者的计算公式如下:
m_t = \beta_1 *m_{t-1}+(1-\beta_1)g_{t}
V_{t}= \beta_{2} * V_{t-1} + (1-\beta_2)g_{t}^2

Nadam

回头看最初的优化框架,已经分别在一阶动量和二阶动量做了研究。还剩下当前的梯度可以进行尝试。参考前面的NAG,Nadam就是Adam+Nesterov。
在Adam的基础上保持其他计算公式不变,更改当前梯度的计算公式为
g_{t}=\nabla f(w_{t} - \alpha *\frac{m_{t-1}}{\sqrt{V_{t-1 } } })

自适应优化算法缺点分析

从前面的介绍可以看出,Adam系列的算法表面上更优秀,针对原本的SGD的缺点做了各种改变。但是对于Adam算法,目前也存在着缺点。
其中一个很严重的问题是Adam算法有可能不收敛。因为二阶动量取决于一段时间内的梯度的积累。这段时间内的数据如果有异常,会导致这个二阶动量极不稳定。在学习的后期,学习率有可能不断震荡,导致整个模型无法收敛。
同时因为动量的引入,在学习的后期,存在可能使一步过大,错过最优解。
综上所述,虽然Adam看着很完美,但在实际应用中还是存在着缺点。所以到底是各种优化器要如何选择,还是要取决于具体的情况和个人的调参经验。

调参经验

后续会逐渐更新个人的调参经验。

参考文献

[1]一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
[2]Adam的两宗罪
[3]如何理解随机梯度下降(Stochastic gradient descent,SGD)?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容