深度学习常用优化器 —— 自适应学习率算法

上一篇说了一下改进梯度的最优化算法，下面说一下自适应学习率算法，以及两者的结合。自适应学习率算法主要是相对不同参数和训练的不同阶段有不同的学习率。

1.自适应学习率算法 —— AdaGrad

AdaGrad应该是Adaptive Gradient的缩写，是怎么个适应法呢，就是每个参数都有自己的学习率，这里的学习率是和每个参数的梯度相关的，而且是累积的；算出一个参数的梯度之后，会去计算累积的平方梯度，如果这个参数已经被更新了多次，二阶动量大，那么学习率就小；反之更新少的参数就会有一个比较大一些的学习率去更新

但是AdaGrad有两个小问题，第一个是一直累积动量累积太大后面就更新不动了，另一个是还是要依靠epsilon的设置，设置比较大的话还是会有影响.

2.自适应学习率算法 —— RMSprop

RMSprop是AdaGrad的一种变体，就是将动量累积和当前时刻的梯度做了一个加权求和（滑动平均），这么做的目的是为了让之前的梯度对当前影响变小

blog还贴了一个加上牛顿动量法的RMSprop，先迈出去一步算梯度，再走后面的RMSprop

3.自适应学习率算法 —— Adadelta

Adadelta是微信文章里介绍的，所以没有算法流程图了，但是其实也很好理解，和RMSprop一样就是做了一个加权求和（滑动平均），但是不一样的是用近段的一个时间窗口内的动量累积，而不是历史动量累积，这就更能避免AdaGrad的第一个问题，而对于第二个问题，文章里说也可以解决，不需要设置一个epsilon了，但我没有弄懂

4.自适应学习率算法 —— Adam(Adaptive Moment Estimation)

Adam其实就是Momentum + RMSprop；算完梯度后，更新一阶矩估计s和二阶矩估计r，s作为梯度动量累积（Momentum），r作为学习率的分母（RMSprop）；最后的公式如果没有r那一坨就是Momentum了，如果把s换成g就是RMSprop。

这里还有一个修正，为什么要修正以及怎么修正的：https://www.zhihu.com/question/392235721 （一个de-bias的过程，修正成相应原参数的无偏估计，以免在前几次迭代中动量和RMS梯度还很小的时候误差太大）

Adam有没有什么缺点呢：也是有的，用的滑动平均可能会随着训练数据抖动，online场景下会波动较大。

基于Adam又有一些其他的自适应学习率算法：

5.Nadam

在Adam的基础上再加上牛顿动量，也就是先通过累积动量迈一步出来，再算梯度做后面的工作

6.AdamW

AdamW主要是考虑了目标函数里有正则项的情况，很多文章一上来就将weight decay啥的，其实weight decay就是希望模型的权重别搞得太复杂（简单就好，奥卡姆剃刀），正则化是实现这个weight decay的一种方式：越大的权重受到越大的惩罚；

但是呢，在Adam这种优化器下，正则化项也会去除以梯度的平方，并不能达到对大权重进行大惩罚的目的了，反而Adam不如Momentum；针对这个问题就提出了AdamW

这个就是把本来带L2的权重更新是紫色地方那样的，改成了只根据目标函数算梯度，做各种操作，然后再把L2对应那部分拿来更新，衰减就不让它衰减了。

后面三个来自于 https://zhuanlan.zhihu.com/p/166362509，都只是简述了一两句

7.AMSGrad

提出了一个新的指数移动平均的准则，通过单调地减小步长，解决了Adam的不收敛问题。

8.SWATS（Switches from Adam To SGD）

一个组合策略，前期采用 Adam 进行训练, 当满足触发条件，优化器就由 Adam 切换为 SGD。

9.Radam（Rectified Adam ）

一种预热启发式算法

最后编辑于：2021.10.27 23:37:10

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,198评论 6赞 514
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,334评论 3赞 398
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,643评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,495评论 1赞 296
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,502评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,156评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,743评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,659评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,200评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,282评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,424评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,107评论 5赞 349
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,789评论 3赞 333
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,264评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,390评论 1赞 271
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,798评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,435评论 2赞 359

深度学习常用优化器 —— 自适应学习率算法

推荐阅读更多精彩内容