2018-12-05梯度下降-II参数的研究

重复直到收敛:


参数更新


研究导数部分带来的影响

\theta _{1} 位于最小值的右侧,位于\theta _{1} 的切线斜率(即导数部分)大于0,使得等式左边新\theta _{1} 减小,J减小,接近最小值J;

\theta _{1} 位于最小值的左侧,位于\theta _{1} 的切线斜率(即导数部分)小于0,使得等式左边新\theta _{1} 增大,J减少,接近最小值J;

综上所述,不管\frac{dJ(\theta _{1} )}{d\theta _{1} } 的大小为正为负,J都会收敛至他的最小值。

另外,我们应该调整参数α以确保梯度下降算法在合理的时间内收敛。 没有收敛或花费太多时间来获得最小值都意味着步长α是错误的。

\theta _{1} 为局部最小值的时候,切线斜率为0,等式左边的新\theta _{1} 保持不变。


导数最小值

收敛的直观表现是\frac{dJ(\theta _{1} )}{d\theta _{1} } 接近于0。


研究α参数带来的影响

当α过小时,梯度下降过慢,每一次的变化幅度太小。

当α过大时,梯度下降可能会越过最小值(产生偏离)。这会导致没有收敛或者偏离。


α固定下的收敛

梯度下降会收敛到一个局部最小值,即使是学习效率α固定的情况下。

当J接近最小值时,梯度下降会自动采用更小的步伐,下降的幅度自动变小,因为导数(斜率)正在慢慢变小。所以不需要随着时间增大α。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容