Adam优化方法

整理动量梯度下降算法的时候，这一类大概有3种：

动量梯度下降
RMSprop
Adam 优化算法

这里主要记录一下这3个算法的优化过程

动量梯度下降

$v_{dW}= \beta * v_{dW} + (1- \beta ) *dW$
$v_{db}= \beta * v_{db} + (1- \beta ) *db$
$W= W - \alpha *dW = W - \alpha * v_{dW}$
$b= b - \alpha *db = b - \alpha * v_{db}$

RMSprop

$S_{dW}= \beta_{2} * v_{dW} + (1- \beta_{2} ) *dW^{2}$
$S_{db}= \beta_{2} * v_{db} + (1- \beta_{2} ) *db^{2}$
$W= W - \alpha * \frac{dW}{ \sqrt {S_{dW} } + \epsilon }$
$b= b - \alpha * \frac{db}{ \sqrt {S_{db} } + \epsilon }$
$\epsilon = 10^{-8}$

Adam 优化算法

$v_{dW}= \beta_{1} * v_{dW} + (1- \beta_{1} ) *dW$
$v_{db}= \beta_{1} * v_{db} + (1- \beta_{1} ) *db$
$S_{dW}= \beta_{2} * v_{dW} + (1- \beta_{2} ) *dW^{2}$
$S_{db}= \beta_{2} * v_{db} + (1- \beta_{2} ) *db^{2}$

$v^{corrected}_{dW} = \frac {v_{dW} }{1-\beta^t_{1} }$
$v^{corrected}_{db} = \frac {v_{db} }{1-\beta^t_{1} }$
t为迭代次数

$S^{corrected}_{dW} = \frac {S_{dW} }{1-\beta^t_{2} }$
$S^{corrected}_{db} = \frac {S_{db} }{1- \beta^t_{2} }$
t为迭代次数

$W= W - \alpha * \frac {v^{corrected}_{dW} } {\sqrt{S^{corrected}_{dW} } + \epsilon }$
$b= b - \alpha * \frac {v^{corrected}_{db} } {\sqrt{S^{corrected}_{db} } + \epsilon }$