4.梯度下降法&&随机梯度下降法

梯度下降法&&随机梯度下降法

梯度下降法是一种在C（代价）下降最快方向上做微小变化的方法。下降最快的方向，也就是梯度的反方向，对于代价函数，代价函数的梯度表示如下

代价函数的梯度

我们让每次权重的更新如下这样就是沿着下降方向前进了：

权重更新

梯度下降法需要计算全量的训练样本的损失函数的均值，然后更新一次权重，学习速度比较慢。但是可以收敛到全局最优。
随机梯度下降的算法能够加速学习。其思想就是通过随机选取一定量训练输入样本构成一个小批次batch来完成权重和偏置的更新。所有的训练输入用完一次，称为一个训练迭代期（epoch）.
随机梯度下降法的小批量数据m的选择一般有1,10,20。数量越小则训练速度越快，但是波动越明显，受噪声数据和错误数据的影响越大。而且随机梯度下降法会收敛到全局最优值附近，然后随机震荡。

4.梯度下降法&&随机梯度下降法

推荐阅读更多精彩内容