登录注册写文章

优化算法：momentum, RMSProp, Adam

优化算法：momentum, RMSProp, Adam

SGD:
$W:=W-\alpha*dW$
每一轮迭代的方向只和当前Batch的梯度方向有关，学习率不能自适应。
动量momentum(利用数学中的移动平均概念)
为梯度的方向增加惯性
梯度的方向如果发生变化，更新速度会变慢。
$V_{dW}=\beta *V_{dW}+(1-\beta)*dW$
$W:=W-\alpha*V_{dW}$
RMSProp：Root Mean Square Prop
自适应学习率的作用
梯度较大的方向学习率会被收缩
$S_{dW}=\beta*S_{dW}+(1-\beta)(dW)^{2}$
$W:=W-\frac{\alpha}{\sqrt{S_{dW}}}*(dW)$

image.png

image.png

Adam(Adaptive momentum estimator)，结合momentum和RMSProp的优势，增加了fixed bias的步骤
$V_{dW}=\beta1 *V_{dW}+(1-\beta1)*dW$
$S_{dW}=\beta2*S_{dW}+(1-\beta2)(dW)^{2}$
$V_{dW}=\frac{V_{dW}}{1-\beta1^{t}}$
$S_{dW}=\frac{S_{dW}}{1-\beta2^{t}}$
$W:=W-\frac{\alpha}{\sqrt{S_{dW}}+\epsilon}*V_{dW}$

【参考资料】

Ng deep learning课程
一文搞懂RMSProp优化算法

最后编辑于：2021.08.27 08:18:44

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

详解梯度下降优化算法
1. 文章 An overview of gradient descent optimization algori...
Silence_Dong阅读 3,967评论 0赞 5
深度学习优化器总结
一.优化器算法简述首先来看一下梯度下降最常见的三种变形 BGD，SGD，MBGD，这三种形式的区别就是取决于我们...
ZAK_ML阅读 4,739评论 0赞 5

深度学习优化器算法Optimizer详解
在tensorflow中我们通过梯度下降算法来优化我们的模型，同时这个优化算法会在每一步的训练中来跟新，迭代模型的...
泛酸的桂花酒阅读 4,439评论 0赞 0
关于深度学习优化器 optimizer 的选择
在很多机器学习和深度学习的应用中，我们发现用的最多的优化器是 Adam，为什么呢？下面是 TensorFlow ...
_两只橙_阅读 1,396评论 0赞 4
『每周一行』一//文青去处之朱家角古镇
我们是否总会在某一个早晨，某一个时刻幡然醒悟？那些一直执着的突然就放下了，那些一直平淡的突然就翻起浪花了。我就在这...
云朵中有光阅读 472评论 0赞 0

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文