最小二乘法:在线性回归中,最小二乘法就是试图找到一条直线,使所有的样本到直线上的欧式距离之和最小。
- 均方误差对应了常用的“欧式距离”
特征缩放
在梯度下降算法中,常常会用到特征缩放。比如,两个特征之间的差距特别大,一个为1到3,另一个为1到2000,会导致梯度下降算法非常的不好用,这时候就会用到特征缩放。整体化为大致-1到1之间的范围。
还有一种情况,叫做均值归一化(mean normalization),如有有一个特征均值为a,那么用(Xi - a)来替代Xi,这样让这个特征的均值为0.
特征缩放的目的是:将梯度下降的速度变得更快 让梯度下降收敛所需的循环次数更少
均值归一化
- 离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。
如果要让均值在[-1,1]之间,可以让分子部分x-均值
- z-score标准化,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数
在梯度下降算法的实用计较
在梯度下降算法中,学习率α的选择应该适中,如果太大的话会反向效果,导致误差函数值上升,如果太小,会需要进行多次梯度下降算法,太过复杂。
一般来说α的选择可以取值为:0.001,0.01,0.1,1,...