一. 局部加权线性回归
局部加权线性回归是普通线性回归的一个改进,普通的线性回归努力寻找一个使得全局代价函数最小的模型。这个模型对于整体来说是最好的,但对于局部点来说,可能不是最好的。比如图一是线性回归得到的模型,相对于图二来说,明显不够完美,图三虽然最完美但是存在过拟合风险。那么,如何用线性回归得到一个局部更准确(可能非线性模型拟合更好)的结果呢?这时,局部加权线性回归出现了。
局部加权线性回归的基本思想:设计代价函数时,待预测点附近的点拥有更高的权重,权重随着距离的增大而缩减——这也就是名字中“局部”和“加权”的由来。
二. 具体方法
1. 权重如何选取
与普通线性回归类似,我们首先要得到代价函数,然后求解代价函数的最优参数:
注意看上图,区别在于此时的代价函数中多了一个权重函数W,这个W要保证,越靠近待测点附近权值越大,越远离待测点权值越小。
这个函数W一般取用:x是待测点,r控制了权值变化的速率,r越大,图像越瘦,离x越远权值下降越快
它的图像是:
我们发现这个图像很像高斯分布,越靠近x,权值越大
好了,至此,我们完成了权重函数的选取,也就完成了代价函数的设计,接下来按照普通线性回归的方法求解参数就可以了,此处不再赘述。
2. 特点
局部加权线性回归不会得到一条适合于全局的函数模型,在每一次预测新样本时都会重新的确定参数,从而达到更好的预测效果。当数据规模比较大的时候计算量很大,学习效率很低。
- 对于线性回归算法,一旦拟合出适合训练数据的参数θ,保存这些参数θi,对于之后的预测,不需要再使用原始训练数据集,所以是参数学习算法。
- 对于局部加权线性回归算法,每次进行预测都需要全部的训练数据(每次进行的预测得到不同的参数θ),没有固定的参数θ,所以是非参数算法。