2020-05-26

摘抄于:https://www.jianshu.com/p/78f27fcf532d

一、主要介绍梯度下降法和牛顿法的区别

1 梯度下降法

     最简单也是最常用的最优化方法,它是一种迭代方法:随机选取初值, 不断迭代更新,从而进行损失函数极小化.注意这里是极小化而非最小化.当求解问题是凸函数时,这个极小值也就是全局最小值,或者说全局解,其他情况下,梯度下降法并不保证求解全局最优.

2 牛顿法原理

    从本质上来说,牛顿法是二阶收敛,梯度下降是一阶收敛,因此,牛顿法肯定更快.

三、牛顿法和梯度下降法的比较

  1.牛顿法:是通过求解目标函数的一阶导数为0时的参数,进而求出目标函数最小值时的参数。

       收敛速度很快。

       海森矩阵的逆在迭代过程中不断减小,可以起到逐步减小步长的效果。

       缺点:海森矩阵的逆计算复杂,代价比较大,因此有了拟牛顿法。

  2.梯度下降法:是通过梯度方向和步长,直接求解目标函数的最小值时的参数。

         越接近最优值时,步长应该不断减小,否则会在最优值附近来回震荡。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容