我们之前讲了一元的线性回归,下面我们讲讲多元线性回归。多元线性回归的定义是考查一个变量和其余多个变量之间的关系,如果是同时考查p个因变量与m个自变量之间的依赖关系,称为多因变量的多元回归问题。
和一元线性回归有相同的定义,多元线性回归中,一个因变量开始由多个自变量来决定,所以它的方程的形式就变成了y=beta_0+beta_1x_1+...beta_px_p+\epsilon,由此我们可以得到理论回归方程,E(y)=beta_0+beta_1x_1+...beta_px_p
因为多元线性回归一个观测值就不再是一个标量而是一个向量了,所以可能自变量的观测值就变成了 (1,x11,...x1p),(1,x21,...x2p)... ,而对应的因变量的观测值不变,还是(y1,...yp) ,因此我们把这些观测值每一行每一行的叠加起来就成为了一个向量或者矩阵。这里我们用C指代x矩阵,Y指代y矩阵,beta指代系数矩阵,\epsilon指代残差。那么这个时候的多元线性回归的表示就变成了y=beta*x+\epsilon。
这个多元线性回归有个假设,残差符合正态分布,并且均值为0。
参数向量\beta的最小二乘估计
假设b是参数\beta的最小二乘估计,就是说b可以使得误差平方和Q(b)达到最小,Q(b)=minQ(\beta),其中Q(\beta)=\sum\epsilon^2=(Y-C\beta)'(Y-C\beta)。这个时候,b=(C'C)^(-1)C'Y是\beta的最小二乘估计,显然,b是正规方程C'C\beta=C'Y的解。
我们称H=(C'C)^(-1)C'为帽子矩阵,此时的残差向量是\epsilon=Y-\hat(y)=(I-H)Y。
这里有一些结论,b是\beta的最小方差无偏估计量,b和\epsilon服从正态分布。
之后我们同样要检验回归方程和回归系数的显著性。回归方程用F检验,回归系数用T检验。
F检验的统计量是F=MMS/MSE;T检验的统计量是T=\beta_i/\sqrt(l^{ii})/\sqrt(Q/(n-m-1))
给定显著性水平\alpha,由样本观测数据计算Q,P以及检验统计量的值,并且计算显著性概率值(p):p=P{F>=f_i}。如果p<\alpha,否定假设H_0,即是认为x_i对y的作用是显著的,否则认为H_0相容。
我们看一个多元回归的例子(这个例子取自高惠璇的应用多元统计分析一书)。
例 1 :假设某种水泥在凝固时所释放的热量Y和水泥中下列四种化学成分相关:
x1-3CaO.Al2O3的成分
x2-CaO.SIO2的成分
x3-4CaO.Al2O3.Fe2O3的成分
x4-2CaO.SIO2的成分
总共观测了13组数据,求Y和x的回归方程,并且对该回归方程和各个回归系数进行检验。
水泥的数据:
No x1 x2 x3 x4 Y
1.0000 7.0000 26.0000 6.0000 60.0000 78.5000
2.0000 1.0000 29.0000 15.0000 52.0000 74.3000
3.0000 11.0000 56.0000 8.0000 20.0000 104.3000
4.0000 11.0000 31.0000 8.0000 47.0000 87.6000
5.0000 7.0000 52.0000 6.0000 33.0000 95.9000
6.0000 11.0000 55.0000 9.0000 22.0000 109.2000
7.0000 3.0000 71.0000 17.0000 6.0000 102.7000
8.0000 1.0000 31.0000 22.0000 44.0000 72.5000
9.0000 2.0000 54.0000 18.0000 22.0000 93.1000
10.0000 21.0000 47.0000 4.0000 26.0000 115.9000
11.0000 1.0000 40.0000 23.0000 34.0000 83.8000
12.0000 11.0000 66.0000 9.0000 12.0000 113.3000
13.0000 10.0000 68.0000 8.0000 12.0000 109.4000
解:回归方程如下hat(Y)=62.4054+1.5511x1+0.5102x2+0.1019x3-0.1441x4
回归方程的显著性检验结果:由方差分析可以得到平方和的分解式是2715.76308=2667.89944+47.86364
均方误差是MSE,它是模型中误差方差\sigma的估计。检验统计量F的值是111.479,p值是0.0001,这表示拟合是高度显著的,该模型解释了这组数据总变差中的主要部分。
回归系数的显著性检验结果:该输出中参数估计不仅给出了回归方程的系数而且给出了检验的结果,表明了四个自变量之间存在很强的相关性,应该从中删除不重要的自变量,比如x3。
下面我们再看一个预测房屋价格的例子。我们使用一个包含21个变量测量值和21613个房屋销售相关的观测值的数据集。首先,通过删除任何缺失值来清理数据,并进行探索性分析以确定变量分布、潜在异常值和共线性。其次,以住宅销售价格为结果变量,以房地产特征为自变量,建立了一般线性回归模型。下一个步骤是使用子集选择方法来选择房屋销售价格的最佳预测因子。我们度量了包括Akaike信息准则(AIC)、贝叶斯信息准则(BIC)和均方根误差(RMSE)选择并验证了最佳模型。该模型通过去除异常值来进一步改进,来开发我们的最终模型 (待修)。