梯度下降（Gradient Descent）

梯度下降算法可以将代价函数J最小化。

为了说明问题，只使用θ₀，θ₁。

如图所示，梯度下降会因为初始化的不同而获得不同的局部最优解。

α被称为学习速率，它在梯度下降算法中代表了我们下山时迈多大的步子。

正确的做法是同步更新θ₀和θ₁。不正确是因为先计算了θ₀而θ₀更新会影响到θ₁的计算。

微分项求导或偏导，其实相当于给θ一个增加或者减少的方向；而α决定了增加和减少的值，即步长大小。

α的大小不同，代表下降步子的大小不同，太大和太小都不好。

如果初始化已经在局部最优点，那么θ不再变化，因为微分项已经为0。

当我们接近局部最低点时，微分项会变小，所以梯度下降会自动的采用较小的幅度。

梯度下降算法，可以用来最小化任何代价函数。

最后编辑于：2017.12.10 12:22:23

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文