【机器学习】梯度下降算法

梯度下降算法

若单个误差为:e=\frac{1}{2}(y-\bar{y})^2

则误差和:
\begin{aligned} E&=e^{(1)}+e^{(2)}+e^{(3)}+...+e^{(n)}\\ &=\sum_{i=1}^{n}e^{(i)}\\ &=\frac{1}{2}\sum_{i=1}^{n}(y^{(i)}-\bar{y}^{(i)})^2 \end{aligned}

代入\bar{y}^{(i)}=\mathrm{w}^T\mathrm{x}^{(i)},得

E(\mathrm{w})=\frac{1}{2}\sum_{i=1}^{n}(\mathrm{y^{(i)}-\mathrm{w}^Tx^{(i)}})^2
接下来的任务,就是要找到合适的\mathrm w,使得函数E(\mathrm{w})能取到最小值。

这里要用到函数E(\mathrm{w})的梯度。梯度是一个向量,它指向函数值上升最快的方向,而梯度的反方向,则指向函数值下降最快的方向。
对于函数f(x)来说,我们要沿着梯度的反方向,去修改x的值,直到走到函数的最小值附近。
对于函数f(x),梯度下降算法的参数修改规则为
\mathrm{x}_{new}=\mathrm{x}_{old}-\eta\nabla{f(x)}\quad\quad(1)

其中,\nabla{f(x)}为函数f(x)的梯度,\eta为学习速率。

对于函数E(\mathrm{w}),对应的梯度下降算法的参数修改规则为
\mathrm{w}_{new}=\mathrm{w}_{old}-\eta\nabla{E(\mathrm{w})}

接下来的问题,就是求梯度\nabla{E(\mathrm{w})}


求梯度\nabla{E(\mathrm{w})}

函数的梯度的定义就是它相对于各个变量的偏导数,因此有

\begin{aligned} \nabla{E(\mathrm{w})}&=\frac{\partial}{\partial\mathrm{w}}E(\mathrm{w})\\ &=\frac{\partial}{\partial\mathrm{w}}\frac{1}{2}\sum_{i=1}^{n}(y^{(i)}-\bar{y}^{(i)})^2 \\ &=\frac{1}{2}\sum_{i=1}^{n}\frac{\partial}{\partial\mathrm{w}}(y^{(i)}-\bar{y}^{(i)})^2 \\ \end{aligned}

得到了
\begin{aligned} \nabla{E(\mathrm{w})} &=\frac{1}{2} \sum_{i=1}^{n}\frac{\partial}{\partial\mathrm{w}}(y^{(i)}-\bar{y}^{(i)})^2 \quad\quad(2)\\ \end{aligned}
之后,接下来的任务就是求
\frac{\partial}{\partial\mathrm{w}}(y^{(i)}-\bar{y}^{(i)})^2


\begin{aligned} \frac{\partial}{\partial\mathrm{w}}(y^{(i)}-\bar{y}^{(i)})^2 &= {\frac{\partial}{\partial\bar{y}}(y^{(i)}-\bar{y}^{(i)})^2} {\frac{\partial{\bar{y}}}{\partial\mathrm{w}}} \end{aligned}

因为
\begin{aligned} {\frac{\partial}{\partial\bar{y}}(y^{(i)}-\bar{y}^{(i)})^2} =&\frac{\partial}{\partial\bar{y}}(y^{(i)2}-2\bar{y}^{(i)}y^{(i)}+\bar{y}^{(i)2})\\ =&-2y^{(i)}+2\bar{y}^{(i)}\\ \end{aligned}

\begin{aligned} {\frac{\partial{\bar{y}}}{\partial\mathrm{w}}}= &\frac{\partial}{\partial\mathrm{w}}\mathrm{w}^T\mathrm{x}=\mathrm{x} \end{aligned}

所以
\frac{\partial}{\partial\mathrm{w}}(y^{(i)}-\bar{y}^{(i)})^2= {\frac{\partial}{\partial\bar{y}}(y^{(i)}-\bar{y}^{(i)})^2} {\frac{\partial{\bar{y}}}{\partial\mathrm{w}}} =2(-y^{(i)}+\bar{y}^{(i)})\mathrm{x}

代入到(2),得
\begin{aligned} \nabla{E(\mathrm{w})} &=\frac{1}{2}\sum_{i=1}^{n}\frac{\partial}{\partial\mathrm{w}}(y^{(i)}-\bar{y}^{(i)})^2\\ &=-\sum_{i=1}^{n}(y^{(i)}-\bar{y}^{(i)})\mathrm{x} \end{aligned}


\nabla{E(\mathrm{w})}=-\sum_{i=1}^{n}(y^{(i)}-\bar{y}^{(i)})\mathrm{x}^{(i)}
代入到

\mathrm{w}_{new}=\mathrm{w}_{old}-\eta\nabla{E(\mathrm{w})}

最终得到\mathrm{w}的修改规则为
\mathrm{w}_{new}=\mathrm{w}_{old}+\eta\sum_{i=1}^{n}(y^{(i)}-\bar{y}^{(i)})\mathrm{x}^{(i)}


参考资料:https://www.zybuluo.com/hanbingtao/note/448086

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 我们在上一篇笔记中使用最小二乘法得到的目标函数是一个形式简单的2次函数,它是一个凸函数,对它的各个参数求偏导并令偏...
    沈先生的格物志阅读 1,760评论 2 8
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,643评论 0 6
  • 脑海里曾经反复练习过辞职的那些场景,但没想到,就只前天,经历了两个多周的时间,终于辞去了大学毕业后的第一份工作,也...
    苏打V阅读 162评论 0 0
  • 青春是生命中最美丽的年华。 青年,不一定非要成功,只要有追求;不一定非要成熟,只要肯学习;不一定非要沉稳,只要善总...
    我心飞扬3666阅读 14,202评论 0 1
  • 2
    TepiChen阅读 117评论 0 0