Adam优化方法


整理动量梯度下降算法的时候,这一类大概有3种:

  1. 动量梯度下降
  2. RMSprop
  3. Adam 优化算法

这里主要记录一下这3个算法的优化过程


动量梯度下降

v_{dW}= \beta * v_{dW} + (1- \beta ) *dW
v_{db}= \beta * v_{db} + (1- \beta ) *db
W= W - \alpha *dW = W - \alpha * v_{dW}
b= b - \alpha *db = b - \alpha * v_{db}

RMSprop

S_{dW}= \beta_{2} * v_{dW} + (1- \beta_{2} ) *dW^{2}
S_{db}= \beta_{2} * v_{db} + (1- \beta_{2} ) *db^{2}
W= W - \alpha * \frac{dW}{ \sqrt {S_{dW} } + \epsilon }
b= b - \alpha * \frac{db}{ \sqrt {S_{db} } + \epsilon }
\epsilon = 10^{-8}

Adam 优化算法

v_{dW}= \beta_{1} * v_{dW} + (1- \beta_{1} ) *dW
v_{db}= \beta_{1} * v_{db} + (1- \beta_{1} ) *db
S_{dW}= \beta_{2} * v_{dW} + (1- \beta_{2} ) *dW^{2}
S_{db}= \beta_{2} * v_{db} + (1- \beta_{2} ) *db^{2}

v^{corrected}_{dW} = \frac {v_{dW} }{1-\beta^t_{1} }
v^{corrected}_{db} = \frac {v_{db} }{1-\beta^t_{1} }
t为迭代次数

S^{corrected}_{dW} = \frac {S_{dW} }{1-\beta^t_{2} }
S^{corrected}_{db} = \frac {S_{db} }{1- \beta^t_{2} }
t为迭代次数

W= W - \alpha * \frac {v^{corrected}_{dW} } {\sqrt{S^{corrected}_{dW} } + \epsilon }
b= b - \alpha * \frac {v^{corrected}_{db} } {\sqrt{S^{corrected}_{db} } + \epsilon }


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容