深度学习中的优化方法

相关部分有手写笔记(见GoodNotes)

复习网址这个写的一级棒。这里对自己的复习做一个整理。

指数加权平均

这个简单,即 V_t = \beta V_{t-1} + (1-\beta) \theta_{t}

带偏差修正的指数加权平均

基于上一项的,公式是V_t = \frac{\beta V_{t-1} + (1-\beta) \theta_{t}}{1-\beta^t}

分母 1-\beta^t即为偏差修正

momentum

意为动量,即在普通的梯度下降基础上加入了动量(本质是指数加权平均):
\begin{align*} V_{dw} &= \beta V_{dw} + (1-\beta) dw \\ w &= w - \alpha V_{dw} \end{align*}

Nesterov Momentum(不重要)

简单来说,就是加了校正因子的momentum
\begin{align*} V_{dw} &= \beta V_{dw} - \alpha dw \\ w &= w + \beta Vdw - \alpha dw \end{align*}

AdaGrad

记它也同样通过英文来记,Adaptive Gradient,即不同的参数采用不同的学习率
\begin{align*} S_{dw} &= S_{dw} + (dw)^2\\ w &= w - \frac{\alpha}{\sqrt{S_{dw}+\epsilon}}dw \end{align*}

RMSprop

可理解为加了权重的AdaGrad
\begin{align*} S_{dw} &= \beta S_{dw} + (1-\beta)(dw)^2\\ w &= w - \frac{\alpha}{\sqrt{S_{dw}+\epsilon}}dw\end{align*}

Adam

记它的时候请记住这是一个终极大魔王,所有思想都整合到了。

英文全称为Adaptive Moment Estimation。Adaptive对应改进版的Adaptive Gradient(其实就是RMSprop), Moment对应Momentum, 还附带了偏差修正

momentum:
\begin{align*} V_{dw} &= \beta_{1} V_{dw} + (1-\beta_{1}) dw \\ \end{align*}
RMSprop:
\begin{align*} S_{dw} &= \beta_2 S_{dw} + (1-\beta_2)(dw)^2\\ \end{align*}
偏差修正:
\begin{align*} V_{dw}^{correct} &= \frac{V_{dw}}{1-\beta_1^t} \\ S_{dw}^{correct} & = \frac{S_{dw}}{1-\beta_2^t} \end{align*}
最后:
w = w - \frac{\alpha}{\sqrt{S_{dw}^{correct}+\epsilon}}V_{dw}^{correct}

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容