吴恩达:动量梯度下降法
梯度下降过程,经常用到的一种平滑方法就是动量法,这种方法来源于指数加权平均的偏差修正。
其中V代表着一直记录的动量,作为超参数,一般取值为0.9,直观物理意义是记录10步的结果并且进行加权平均以实现平滑。实际上每相隔一步,权重乘以0.1衰减。这就是指数加权平均这个名字的由来。这样进行平滑可以在不记录过往信息,节省大量内存的情况下得到平滑结果。
同理,对于bias
以上两个公式完成了梯度的计算,则权重的更新方式由下面两个公式完成:
从统计学角度来说,只要数量够大,平均值可以很大程度体现真实值。我们把梯度下降当作是一个含有一定随机性的过程,每次计算都几乎不可能直接指向全局最优点。那么这个平均过程,被期望将这种随机性尽量抵消。事实证明这的确是可行的。
以上就是动量梯度下降法的关键内容,下面是延展阅读,重要性低
非重要补充:
两个式子在有的情况下写成
实际上不会有什么影响,唯一可能影响的就是学习率的最优值。
指数加权平均存在一定的缺陷,其中之一就是无法准确估计排在最前面的几个数据的均值,假设
则
显然都过于小了,无法准确体现加权平均值。
解决这个问题的方法也很暴力,直接进行偏差修正(bias correction)
这样子前几步的得到相应的放大,而随着t的增大,
趋向于0,不再影响后面的结果。然而实际运用动量梯度下降法时,没有人真正去用这种修正,因为影响微乎其微。