关于机器学习中的梯度下降

说到梯度，在高等数学已经有十分全面的解释，然而再机器学习之中的梯度下降算法中梯度实际也是一样的，这个算法现在的实用性已经不大了，但是仍有必要提一提。
在解决最优化问题之中，找到局部最优值是算法编写的目的，在高等数学之中，函数曲线中一点的梯度代表了这一点沿这一曲线上升或下降的最快方向，那么在机器学习之中，我们也是想寻找一种方法让某个值变得很小或很大，
那么机器学习中想让哪个值变得小呢，这就引出了cost function（代价函数）
线性回归之中

1123

（其中m为训练样本数，h（x）为一线性函数以θ作为参数）
所以简单的可以看出来J（θ）的作用就是判断线性近似的效果，如果该值越小，那么就说明我们取到的θ值越能够使x代入后逼近于y，从而得到一条线性回归方程
那么简单的一次取值肯定是不能取到最为适合的θ的，我们需要通过迭代的方法去不断优化θ的值，从而实现最优的逼近策略。
如何去迭代呢，那么就是这一次探讨的梯度下降了，可以看出J（θ）是关于θ的函数，这里所指θ可以是单个值，也可以是一个向量，我们的目的是改变θ，于是

机器学习中采取这样的迭代方法来实现线性回归，这里θ多了一个下标j，意味着我们可以进行延伸，即θ为一个向量亦可操作，J（θ）对θ的每一个分量求偏导数，那么得到的结果就是这个分量使J（θ）上升或下降，即变化最快的方向，前面的负号代表着是下降。可能大家还是有疑问，那么一个参数减去一个α乘上一个偏导数是啥意思呢？
我们来分析一下，首先偏导数的正负代表着对于一个变量总体函数值增减性，即对x偏导数大于0，那么在其他变量不变的情况下，x增加，f（x）也会增加，好了，那么我们回过头来看这个问题，我们现在期望J（θ）减少，那么但偏导数大于0的时候我们就该减去参数的值来减少J（θ）的值，当偏导数小于0的时候我们就应该增加参数的值来减少J（θ）的值，由于J（θ）是平方误差函数，所以肯定是非负的，故不用考虑J（θ）减少到变成负数的情况（这也是平方误差函数这样设计出来的优点，巧妙地避免了讨论代价函数小于0的情况）
好了，接下来我们需要把求偏导的部分算出来，这样有利于我们下一步的编程实现，或者深入思考。

formula1

最后我们可以得到一条结果，即

formula2

代入迭代式子之中我们可以得到

formula3

重复这一步骤，我们可以发现θ在多次重复下趋于平稳或者持续在一个区间震荡，我们也就实现了梯度下降算法了
下面用平面上几个点作为测试样本，使用一次函数来进行拟合
假定

formula4

点的分布如图所示

pic

下面简单利用java来编写这样的一个程序
首先是Point类

public class Point { 
      public double x; 
      public double y; 
      Point(double x1,double y1){ 
            this.x=x1; 
            this.y=y1; 
        }
}

然后是Calculator类用来计算

import java.util.ArrayList;

/**
 * Created by Mezereon on 2017/1/10.
 */
public  class Calculator {
    Point a=new Point(0.93,2.36);
    Point b=new Point(2.03,3.01);
    Point c=new Point(3.01,2.59);
    Point d=new Point(3.32,3.73);
    Point e=new Point(3.46,3.11);
    Point f=new Point(4.46,4.42);
    Point g=new Point(4.75,3.96);
    Point h=new Point(5.73,5.04);
    ArrayList<Point> pointsArray=new ArrayList<>();
    Calculator(){
        pointsArray.add(a);
        pointsArray.add(b);
        pointsArray.add(c);
        pointsArray.add(d);
        pointsArray.add(e);
        pointsArray.add(f);
        pointsArray.add(g);
        pointsArray.add(h);
    }

    public double function(double arg0,double arg1){
           double sum=0;
            for(int i=0;i<8;i++){
                sum+=((pointsArray.get(i).x*arg1+arg0)-pointsArray.get(i).y)*(pointsArray.get(i).x);
            }
            return sum/8;
    }

    public double function0(double arg0,double arg1){
        double sum=0;
        for(int i=0;i<8;i++){
            sum+=((pointsArray.get(i).x*arg1+arg0)-pointsArray.get(i).y);
        }
        return sum/8;
    }
}

接下来试main入口

public class Main {

    public static void main(String[] args){
        Calculator c=new Calculator();
        double arg0=0,arg1=0,alpha=0.01;
        double temp0,temp1;
        int count =1;
        System.out.println("arg0  is  "+arg0);
        System.out.println("arg1  is  "+arg1);
        while(count<30000){
            temp0=alpha*c.function0(arg0,arg1);
            temp1=alpha*c.function(arg0,arg1);
            arg0-=temp0;
            arg1-=temp1;
            System.out.println("arg0  is  "+arg0);
            System.out.println("arg1  is  "+arg1);
            count++;
        }

    }
}

当设置条件为count<1000时结果为
arg0 is 1.287365732888797arg1 is 0.6329617002984178
当设置条件为count<10000 结果为
arg0 is 1.6438760225929463arg1 is 0.5442033325754289
当设置条件为count<20000 结果为
arg0 is 1.6438774149946431arg1 is 0.5442029859169862
当设置条件为count<30000 结果为
arg0 is 1.6438774149959243arg1 is 0.5442029859166673
基本是趋于稳定了 arg0=1.643877 ，arg1=0.5442029
画出拟合图像

pic2

以上便是对梯度下降算法的解释，以及代码的实现

关于机器学习中的梯度下降

推荐阅读更多精彩内容