相关部分有手写笔记(见GoodNotes)
复习网址这个写的一级棒。这里对自己的复习做一个整理。
指数加权平均
这个简单,即
带偏差修正的指数加权平均
基于上一项的,公式是
分母 即为偏差修正
momentum
意为动量,即在普通的梯度下降基础上加入了动量(本质是指数加权平均):
Nesterov Momentum(不重要)
简单来说,就是加了校正因子的momentum
AdaGrad
记它也同样通过英文来记,Adaptive Gradient,即不同的参数采用不同的学习率
RMSprop
可理解为加了权重的AdaGrad
Adam
记它的时候请记住这是一个终极大魔王,所有思想都整合到了。
英文全称为Adaptive Moment Estimation。Adaptive对应改进版的Adaptive Gradient(其实就是RMSprop), Moment对应Momentum, 还附带了偏差修正
momentum:
RMSprop:
偏差修正:
最后: