[Week 1] Machine-learning Notes 3 ——Parameter Learning（介绍梯度下降算法）

Gradient Descent

我们已经介绍了代价函数J，接下来引出梯度下降（Gradient descent）算法，这种算法是用来将代价函数J最小化的，并且被广泛应用于机器学习中，为了解决其他线性回归问题，也将使用梯度下降法。

梯度下降算法可应用于多种多样的函数求解，不一定是代价函数，

Gradient Descent Intution

上面的过程使得我们能够更加直观的感受到这个算法的作用以及下降算法的更新过程的意义：

Gradient Descent For Linear Regression

梯度函数和代价函数结合：
将梯度下降算法应用于具体的拟合直线的线性回归算法

线性回归的代价函数总是这样一个弓形的样子，这个函数的专业术语是凸函数（convex function），一个不正式的说法是，这就是一个弓形的函数。只有一个全局最优解，没有局部最优解

实际上，通常把梯度下降算法，叫做“批量”梯度下降算法（“Batch” Gradient Descent），虽然名字起的有点莫名其妙，但是这个“批量”的意思就是说，我们梯度下降的每一步都用到了所有的训练样本（因为在梯度下降中在计算微分求导项的时候我们需要进行求和运算，所以在每一步的梯度下降中，我们每个项都要对所有m个训练样本求和）,事实上，也有其他梯度算法，不考虑整个的训练集，而是每次只关注一些小数据集。

如果你之前学习过高等代数，你应该知道有一种计算，不需要梯度下降这种迭代算法也能解出代价函数J的最小值，后面也会提到，这是另一种被称为正规方程（normal equations）的方法，当数据量较大的时候，梯度方程比正规方程要更适用一些。
并且后期还会有“泛化的梯度下降”，这使得梯度下降变得更加强大。

总结起来就是，若要由数据进行预测，需要拟合出线性回归函数，要使得拟合出的误差尽量小，就要使得其代价函数变得最小，求最小的代价函数的值，要用到梯度下降算法。（此处应该用一个GIF来很好的表示一下这个相互联系的过程。天哪，杀了我吧）

最后编辑于：2018.12.06 09:31:09

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

[Week 1] Machine-learning Notes 3 ——Parameter Learning（介绍梯度下降算法）

[Week 1] Machine-learning Notes 3 ——Parameter Learning（介绍梯度下降算法）

相关阅读更多精彩内容

友情链接更多精彩内容