自适应学习率调整算法

AdaGrad

独立调整模型所有参数的学习率,从训练过程的开始不断的减小learning rate
较大的梯度---rapid decrease 较小的梯度---relaticely small decrease

缺点是过度地降低了学习率,凸函数中性能更好

image

RMSProp

通过引入超参数alpha,控制量对历史梯度值的依赖程度
区别于AdaGrad将所有的梯度值叠加,RMSProp可避免训练过程中学习率过小

image

combine momentum with RMSProp

imag

Adam

s for momentum
r for RMSProp

The most straightforward way to add momentum to RMSProp is to apply momentum to the rescaled gradients

imag
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容