Ada_grad自适应梯度下降

def sgd_adagrad(parameters, sqrs, lr):

eps = 1e-10

for param, sqr in zip(parameters, sqrs):

sqr[:] = sqr + param.grad.data ** 2

div = lr / torch.sqrt(sqr + eps) * param.grad.data

param.data = param.data - div

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

一文总结深度学习框架-Pytorch
1 Pytorch简介 Pytorch是Facebook人工智能研究院基于Torch开发的一个开源的Python机...
可爱多多少阅读 2,117评论 1赞 4
【新手百科】机器学习中梯度下降算法（包括其变式算法）简介
编译：AI100，本文经授权发布，转载请联系AI100. 英文：https://www.analyticsvidh...
Major术业阅读 1,162评论 0赞 5

机器学习第三次打卡
目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此，梯度下降也叫作最陡下降（steepes...
MapleLeaf_9f29阅读 557评论 0赞 0
深度学习中优化方法——momentum、Nesterov Momentum、AdaGrad、A...
深度学习中优化方法 —momentum、Nesterov Momentum、AdaGrad、Adadelta、RM...
囧的小迷妹阅读 2,774评论 0赞 0
Pytorch的优化器总结
本文是从网上的资料加上自己的总结而来的，要感谢 PyTorch 学习笔记（七）：PyTorch的十个优化器： ht...
ForCLovC阅读 30,485评论 2赞 12

赞1赞

赞赏

手机看全文