记:
| 算法名称 | 算法公式 | 描述 |
|---|---|---|
| BGD | 每次使用全部样本 | |
| SGD | 每次使用一个样本 | |
| MGD | 每次使用m个样本 | |
| Momentum |
|
指数累加梯度值, |
| Nesterov |
|
以未来位置 |
| Adagrad | 对稀疏数据低频大更高频小更, |
|
| RMSprop |
|
用指数平滑均值代替全梯度求和, |
| AdaDelta |
|
一阶方法逼近二阶牛顿法, |
| Adam(Adaptive Moment Estimation) |
|
RMSprop + Momentum+偏差矫正, |
梯度下降算法
系数更新公式为:
不妨设,且损失函数为:
则梯度为:
对于BGD,n为全体数据量;对于SGD,n为1;对于MGD,n为批量大小m。
牛顿二阶梯度优化法的推导
在
泰勒展开以及梯度为
令
时
,得
从而
牛顿二阶系数更新公式
系数更新公式为:
其中为参数二阶导矩阵,即Hessian矩阵。
代替了
,不过计算复杂度为
,代价太高。
AdaDelta
使用一阶方法近似牛顿二阶,从而可以省去超参。记:
由牛顿二阶法系数更新公式
可得
从而