线性回归概念分析
回归通常用于分析变量与变量之间的联系,举个最简单的例子,身高和体重就是一对变量,它们之间存在一种联系,回归就是找到它们之间的联系,并用数学公式表现出来。
数据在图上显示可能会更直观一点,这里身高设为X,体重设为Y,身高和体重就可以用一个函数Y=F(X)来表示,通过图也可看出,身高和体重是一个线性关系,那么就可以用y=ax+b的线性模型去匹配这些数据点。
匹配过程
模型有了之后,需要求解参数,求解参数时要考虑选择最优的参数使得匹配结果最为准确。这里需要找一个衡量匹配程度好坏的一个标准,从图中可以看到,所需要的模型输出与真实值之间的差值越小,这个模型就越好,找到误差值最小的参数模型就是最优的模型。
梯度下降
怎么找到误差值最小的cost(a,b)?学过数学的都知道这是一个二元二次函数,形状像一个碗,它有一个最低点,找到这个点的方法就是随便找一个点,沿着这个点沿着碗下降的方向,就能找到最低点。
只要将a沿着负导数方向缓慢移动,就一定能找到cost最小的那个点,同理,b也是这么寻找到的。
�参数更新公式里Alpha的值被称为学习率,简单理解为控制参数更新的快慢的。需要注意的是在接近碗底的时候需要减小学习率,避免出现cost值摆动不停的状况。
扩展
这只是一个很简单的线性回归问题,只有两个变量,如果有多个变量,例如一个消费水平的关系式中,工资水平、受教育程度、职业、地区、家庭负担等等因素都会影响到消费水平,这被称之为多元线性回归,表示公式可以写成:
Zy= β1Z*1 + β2Z*2 + … + βkZ*k
参数的估计方法可以采用最小二乘法,即在其数学模型所属的函数类中找一个近似的函数,使得这个近似函数在已知的对应数据上尽可能和真实函数接近。其数学基本原理依然是梯度下降法。