最小二乘法原理及Scitkit-learn实现

  • 概述

  最小二乘法是一种数学优化技术,它通过最小化误差来寻找数据的最佳匹配函数,在曲线拟合中有广泛应用。在一维空间中,若已知n个点(x_1,y_1),(x_2,y_2)...(x_n,y_n),现在我们使用最小二乘法对这n个点进行曲线拟合。目标就是找到常数a,b,使得数据与直线y=ax+b的误差平方和函数\xi(x)=\sum_{i=1}^{n}\|y(x_i)-y_i\|_2^2最小。则此时的常数a,b就是这n个数据点的最佳匹配函数,同时也得到了这n个点的回归方程y=ax+b

  • 理论推导

  显然,无法直接由数据点得出常数a,b的值。直接考虑误差平方和函数的形式:\xi(x)=\sum_{i=1}^{n}{\|y(x_i)-y_i\|}_2^2 = \sum_{i=1}^{n}[(ax_i+b)-y_i]^2(a,b)\in\mathbb R存在(a_0,b_0),{s.t.} \xi(a_0,b_0)=\xi(x)_{min}(也就是将误差平方和视为以a,b为自变量的二元函数)。经过这样的转换,现在只需求出二元函数\xi(a,b)的最小值即可,这类二元函数的极值问题显然是比较容易求解的,令f_a=f_b=0则有:
\begin{cases} f_a=\frac{\partial\xi}{\partial a}=2\sum_{i=1}^{n}x_i(ax_i+b-y_i)=0\\ f_b=\frac{\partial\xi}{\partial b}=2\sum_{i=1}^{n}(ax_i+b-y_i)=0 \end{cases}
整理方程组得:
\begin{cases} a\sum_{i=1}^{n}x_{i}^{2}+b\sum_{i=1}^{n}x_i=\sum_{i=1}^{n}x_iy_i\\ a\sum_{i=1}^{n}x_i+bn=\sum_{i=1}^{n}y_i \end{cases}
求此方程的解,即得\xi(a,b)的稳定点(a,b):
a=\frac{n\sum_{i=1}^{n}x_iy_i-(\sum_{i=1}^{n}x_i)(\sum_{i=1}^{n}y_i)}{n\sum_{i=1}^{n}x_i^2-(\sum_{i=1}^{n}x_i)^2}
b = \frac{(\sum_{i=1}^{n}x_{i}^{2})(\sum_{i=1}^{n}y_i)-(\sum_{i=1}^{n}x_iy_i)(\sum_{i=1}^{n}x_i)}{n\sum_{i=1}^{n}x_i^2-(\sum_{i=1}^{n}x_i)^2}
现在需要进行一步证明该稳定点是\xi(a,b)的极小值点,此时只需计算\xi(a,b)在点(a,b)的黑塞(Hesee)矩阵H_f(P_0)

在多元函数的极值理论中将H_f(P_0)=\begin{pmatrix}f_{xx}(P_0)&f_{xy}(P_0)\\f_{yx}(P_0)&f_{yy}(P_0)\end{pmatrix}_{P_0}={\begin{pmatrix}f_{xx}&f_{xy}\\f_{yx}&f_{yy}\end{pmatrix}}_{P_0}称为二元函数f(x,y)在点P_0的黑塞矩阵。注意到当f_x(P_0)=f_y(P_0)=0时,由函数f(x,y)在点P_0(x_0,y_0)的二阶泰勒公式有:
f(x,y)-f(x_0,y_0)=\frac{1}{2}(\Delta x,\Delta y)H_f(P_0)(\Delta x,\Delta y)^T+o(\Delta x,\Delta y)
可以证明,当H_f(P_0)为正定矩阵时,f(x,y)在点P_0处取得极小值;
同理可证,当H_f(P_0)为负定矩阵时,f(x,y)在点P_0处取得极大值;
详细证明过程请参考数学分析第四版下第十七章第四节泰勒公式与极值146页关于正定矩阵、负定矩阵的定义,在此不再赘述,有兴趣的请自行百度。
在实际运用中,一般使用如下方式进行判断:

1).当f_{xx}(P_0)>0,({f_{xx}f_{yy}-f_{xy}^2)|}_{P_0}>0时,f(x,y)在点P_0处取得极小值;
2).当f_{xx}(P_0)<0,({f_{xx}f_{yy}-f_{xy}^2)|}_{P_0}>0时,f(x,y)在点P_0处取得极小值;
3).当({f_{xx}f_{yy}-f_{xy}^2)|}_{P_0}<0时,f(x,y)在点P_0处不能取得极值;
4).当({f_{xx}f_{yy}-f_{xy}^2)|}_{P_0}=0时,不能判断f(x,y)在点P_0处是否能取得极值;

因为:
f_{aa}=2\sum_{i=1}^{n}x_i^2>0\\ f_{ab}=2\sum_{i=1}^{n}x_i\\ f_{bb}=2n\\ f_{aa}f_{bb}-f_{ab}^2=4n\sum_{i=1}^{n}x_i^2-4(\sum_{i=1}^{n}x_i)^2
由数学归纳法可以很容易证明当x_1,x_2...x_n不全相等时,以下等式恒成立:f_{aa}f_{bb}-f_{ab}^2=4n\sum_{i=1}^{n}x_i^2-4(\sum_{i=1}^{n}x_i)^2>0
则有判定1)可知,误差平方和函数\xi(x)(a,b)处取得极小值,且该极小值为该函数的最小值。故(x_1,y_1),(x_2,y_2)...(x_n,y_n)的回归模型为:y=a x+ b,其中
a=\frac{n\sum_{i=1}^{n}x_iy_i-(\sum_{i=1}^{n}x_i)(\sum_{i=1}^{n}y_i)}{n\sum_{i_1}^{n}x_i^2-(\sum_{i=1}^{n}x_i)^2}
b = \frac{(\sum_{i=1}^{n}x_{i}^{2})((\sum_{i=1}^{n}y_i)-(\sum_{i=1}^{n}x_iy_i)(\sum_{i=1}^{n}x_i)}{n\sum_{i_1}^{n}x_i^2-(\sum_{i=1}^{n}x_i)^2}

  • 最小二乘法的推广
      对于多元线性回归模型Y=X\vec\beta+\zeta
    \begin{pmatrix}y_1\\y_2\\...\\y_n\end{pmatrix}=\begin{pmatrix}x_{11}&x_{21}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\...&...&...&...\\x_{n1}&x_{n2}&...&x_{np}\end{pmatrix}\begin{pmatrix}\beta_0,\beta_1,...\beta_p\end{pmatrix}+\begin{pmatrix}\zeta _1\\\zeta_2\\...\\\zeta_n\end{pmatrix}
    其中\zeta_i相互独立且服从(0,\delta^2)分布。
    其残差平方和\xi(\beta_0,\beta_1,...\beta_n)=\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_{i1}...-\beta_px_{ip})^2
    对参数\beta求偏导得:
    \begin{cases} \frac{\partial\xi}{\partial\beta_0}=\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_{i1}...-\beta_px_{ip})=0\\ ......\\ \frac{\partial\xi}{\partial\beta_j}=\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_{i1}...-\beta_px_{ip})x_{ij}=0\\ ......\\ \frac{\partial\xi}{\partial\beta_p}=\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_{i1}...-\beta_px_{ip})x_{ip}=0\\ \end{cases}
    转化为矩阵形式为:
    X^TX\vec\beta=X^TY
    得到:
    \vec\beta=(X^TX)^{-1}X^TY
  • 实际应用
      在Scikit-learn库中,使用LinearRegression实现线性模型的最小二乘法求解。
class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1)¶
  • Parameters

fit_intercept:是否计算此模型的截距,默认为True,计算截距。


normalize:在需要计算截距时,如果值为True,则变量x在进行回归之前先进行归一化(x = \frac{x-\bar x}{\|x\|_2}),如果需要进行标准化则normalize=False。若不计算截距,则忽略此参数。


copy_X:默认为True,将复制X;否则,X可能在计算中被覆盖。


n_jobs:指定用于计算的cpu,如果为-1,则使用所有cpu进行计算。只为n_target>1和运算量足够大的问题进行加速。

  • Attributes

coef_:返回模型的估计系数。
intercept_:线性模型的独立项,一维情形下的截距。

  • Methods
    fit(X,y):使用数据训练模型�
    get_params([deep=True]):返回函数LinearRegression()内部的参数值
    predict(X):使用模型做预测
    score(X,y):返回模型的拟合优度判定系数R^2

R^2为回归平方和与总离差平方和的比值,介于0-1之间,越接近1模型的拟合效果越显著。

set_params(**params):设置函数LinearRegression()内部的参数。

  • 实例
      使用boston房价数据集进行线性回归的演示:
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import scale
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import numpy as np

# 正确显示中文字符和负号
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False

data = load_boston()
# 标准化数据集
X = scale(data.data)
y = data.target
# 拆分数据集为测试集和训练集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.5)
lmodel = LinearRegression(fit_intercept = True,normalize = False,copy_X=True,n_jobs=1)
lmodel.fit(X_train,y_train)
# 回归模型的系数
lmodel.coef_
array([-0.35105084,  0.7982819 ,  0.24039003,  0.81774379, -2.12147393,
        2.4506533 ,  0.32602751, -3.01123388,  2.99123594, -2.33217099,
       -1.9661762 ,  0.65463517, -4.79537511])
# 回归模型的截距
lmodel.intercept_
22.390664677581363
# 输出函数内部的全部参数
lmodel.get_params()
{'copy_X': True, 'fit_intercept': True, 'n_jobs': 1, 'normalize': False}
# 设置函数参数n_jobs,使用全部cpu
lmodel.set_params(n_jobs = -1)
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=-1, normalize=False)
# 输出模型的拟合优度系数
lmodel.score(X_train,y_train)
0.7584080147755256

拟合优度约为0.76,拟合效果良好,下面通过绘制残差图,来观察残差的分布情况。

error = pow(lmodel.predict(X_test)-y_test,1)/len(X_test)
plt.figure(1,dpi = 100)
plt.scatter(np.arange(len(error)),error)
plt.ylabel('残差')
plt.title('残差图')
image
error.mean()
0.0007116874646772689
error.std()
0.01865271004134575

通过残差图还有残差的均值可以发现,残差在0周围波动且不包含任何可预测的信息,拟合效果显著。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容