梯度下降(Gradient Descent)

梯度下降算法可以将代价函数J最小化。

为了说明问题,只使用θ0,θ1


如图所示,梯度下降会因为初始化的不同而获得不同的局部最优解。


α被称为学习速率,它在梯度下降算法中代表了我们下山时迈多大的步子。

正确的做法是同步更新θ0和θ1。不正确是因为先计算了θ0而θ0更新会影响到θ1的计算。


微分项求导或偏导,其实相当于给θ一个增加或者减少的方向;而α决定了增加和减少的值,即步长大小。


α的大小不同,代表下降步子的大小不同,太大和太小都不好。


如果初始化已经在局部最优点,那么θ不再变化,因为微分项已经为0。

当我们接近局部最低点时,微分项会变小,所以梯度下降会自动的采用较小的幅度。

梯度下降算法,可以用来最小化任何代价函数。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容