深度学习中的优化方法

相关部分有手写笔记（见GoodNotes)

复习网址这个写的一级棒。这里对自己的复习做一个整理。

指数加权平均

这个简单，即 $V_t = \beta V_{t-1} + (1-\beta) \theta_{t}$

带偏差修正的指数加权平均

基于上一项的，公式是 $V_t = \frac{\beta V_{t-1} + (1-\beta) \theta_{t}}{1-\beta^t}$

分母 $1-\beta^t$ 即为偏差修正

momentum

意为动量，即在普通的梯度下降基础上加入了动量（本质是指数加权平均）：
$\begin{align*} V_{dw} &= \beta V_{dw} + (1-\beta) dw \\ w &= w - \alpha V_{dw} \end{align*}$

Nesterov Momentum(不重要)

简单来说，就是加了校正因子的momentum
$\begin{align*} V_{dw} &= \beta V_{dw} - \alpha dw \\ w &= w + \beta Vdw - \alpha dw \end{align*}$

AdaGrad

记它也同样通过英文来记，Adaptive Gradient，即不同的参数采用不同的学习率
$\begin{align*} S_{dw} &= S_{dw} + (dw)^2\\ w &= w - \frac{\alpha}{\sqrt{S_{dw}+\epsilon}}dw \end{align*}$

RMSprop

可理解为加了权重的AdaGrad
$\begin{align*} S_{dw} &= \beta S_{dw} + (1-\beta)(dw)^2\\ w &= w - \frac{\alpha}{\sqrt{S_{dw}+\epsilon}}dw\end{align*}$

Adam

记它的时候请记住这是一个终极大魔王，所有思想都整合到了。

英文全称为Adaptive Moment Estimation。Adaptive对应改进版的Adaptive Gradient(其实就是RMSprop), Moment对应Momentum, 还附带了偏差修正

momentum:
$\begin{align*} V_{dw} &= \beta_{1} V_{dw} + (1-\beta_{1}) dw \\ \end{align*}$
RMSprop:
$\begin{align*} S_{dw} &= \beta_2 S_{dw} + (1-\beta_2)(dw)^2\\ \end{align*}$
偏差修正：
$\begin{align*} V_{dw}^{correct} &= \frac{V_{dw}}{1-\beta_1^t} \\ S_{dw}^{correct} & = \frac{S_{dw}}{1-\beta_2^t} \end{align*}$
最后：
$w = w - \frac{\alpha}{\sqrt{S_{dw}^{correct}+\epsilon}}V_{dw}^{correct}$