框架
该总结框架来自知乎文章:一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
给定参数,损失函数
, 学习率
,对于第
个step:
- 计算目标函数关于当前参数的梯度:
- 根据历史梯度,计算一阶动量和二阶动量:
一阶动量:
二阶动量: - 计算当前时刻的下降梯度:
- 根据下降梯度更新参数:
其中:
一阶动量:当前时刻梯度值的指数移动平均
二阶动量:之前所有时刻梯度值的平方和
该总结框架来自知乎文章:一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
给定参数,损失函数
, 学习率
,对于第
个step:
其中:
一阶动量:当前时刻梯度值的指数移动平均
二阶动量:之前所有时刻梯度值的平方和