2019-04-28 梯度下降

首先定义：待优化参数： $w$ ，目标函数： $f(w)$ ，初始学习率： $\alpha$

而后，开始进行迭代优化。在每个epoch $t$

计算目标函数关于当前参数的梯度： $g_{t}={\Delta f(w_{t})}$

根据历史梯度计算一阶动量和二阶动量：

$m_{t}=\phi (g_1,g_2,…,g_t)$ ， $V_t=\psi (g_1,g_2,...,g_t)$

计算当前时刻的下降梯度： $\eta =\alpha \cdot m_{t}/\sqrt{V_t}$

根据下降梯度进行更新： $w_{t+1}=w_{t}-\eta$

掌握了这个框架，你可以轻轻松松设计自己的优化算法。步骤3、4对于各个算法都是一致的，主要的差别就体现在1和2上

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

cs231n课程笔记：神经网络(三)
笔记参考：https://zhuanlan.zhihu.com/p/21407711?refer=intellig...
spectre_hola阅读 957评论 0赞 1
详解梯度下降优化算法
1. 文章 An overview of gradient descent optimization algori...
Silence_Dong阅读 3,708评论 0赞 5
神经网络：改进神经网络的学习方法（下）
改进神经网络的学习方法（下）权重初始化创建了神经网络后，我们需要进行权重和偏差的初始化。到现在，我们一直是根据...
nightwish夜愿阅读 1,908评论 0赞 0
午觉不能睡太久
嗯，对。我今天又做了这种蠢事:睡午觉睡了两个小时。别人都去上完课回来了，我还躺在床上呢。晚上到点睡觉时，又...
doublehuan阅读 286评论 0赞 1
不是我不想寫
但簡書的編輯頁面我已經很多天開不了了。在這幾天里，我的小黑都撞了。現在開著Civic仔，很醜很不爽。這個週末連...
阿飛阅读 220评论 2赞 1

赞1赞

赞赏

手机看全文