《李宏毅·机器学习》读书笔记(三)Gradient Descent 知识点补充2

image.png

今天再把梯度下降的视频看了一遍,再次整理了一便思路。梯度下降主要是围绕 批量梯度随机梯度 来进行讲解。其中包含了学习率,也就是移动的步长。通过批量梯度下降 Adagrad算法实现的讲解,再对比过渡到 随机梯度 下降。最后介绍特征缩放的方式使得梯度下降算法更快地收敛。

关注到两个比较有趣的地方:

  1. 再讲解Adagrad算法的时候,为什么不计算二次微分,而使用前N个一次微分平均的开方作为分母?
  2. 通过泰勒展开式来说明梯度下降的意义(这部分看得似懂非懂,有点晕)

视频总结的文章可以查看 《李宏毅·机器学习》读书笔记(三)Gradient Descent

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容