大师兄的应用回归分析学习笔记(五):多元线性回归(二)

大师兄的应用回归分析学习笔记(四):多元线性回归(一)

三、参数估计量的性质

1. 性质1:\hat \beta是随机向量y的一个线性变换
  • 在多元线性回归中,无论应用普通最小二乘估计还是最大似然估计,得到回归系数向量\beta的估计量为:\hat\beta = (X'X)^{-1}X'y
  • 根据回归模型假设,X是固定的设计矩阵,因此,\hat \beta是y的一个线性变换。
2. 性质2:\hat\beta\beta的无偏估计
  • E(\hat \beta) = E((X'X)^{-1}X'y) = (X'X)^{-1}X'E(y)=(X'X)^{-1}X'E(X\beta +\epsilon)=(X'X)^{-1}X'X\beta=\beta
  • 这一性质与一元线性回归\beta_0\beta_1无偏的性质相同。
3. 性质3:D(\hat \beta) = \delta^2(X'X)^{-1}
  • D(\hat\beta) = cov(\hat\beta,\hat\beta)=cov((X'X)^{-1}X'y,(X'X)^{-1}X'y)=(X'X)^{-1}X'cov(y,y)((X'X)^{-1}X')'=(X'X)^{-1}X'\delta^2X(X'X)^{-1}=\delta^2(X'X)^{-1}
  • \hat \beta的方差阵\delta^2(X'X)^{-1}也记作cov(\hat\beta,\hat\beta),也称作\hat\beta的协方差阵。
  • 根据D(\hat\beta)可以分析出\hat\beta各分量的波动以及各分量之间的相关程度。
  • 由此特性可看出,回归系数向量\hat\beta的稳定状况不仅与随机误差项的方差\delta^2有关,还与设计矩阵X有关。
  • 要使估计量的方差小,采集样本数据时就不能太集中。
4. 高斯-马儿科夫(G-M)定理
  • 预测函数:\hat y_0 = \hat\beta_0 + \hat\beta_1 x_{10}+ \hat\beta_2 x_{20}+...+ \hat\beta_p x_{p0}\hat\beta的线性函数,波动越小越好。
  • 设c为任一p+1维常量向量,希望回归系数向量\beta的估计值\hat\beta具有如下性质:
  • c'\hat\beta是c'\beta的无偏估计
  • c'\hat\beta的方差要小
  • 高斯-马尔科夫定理:在假定E(y) = X\beta,D(y) = \delta^2I_n时,
  • \beta的任一线性函数c'\beta的最小方差线性无偏估计(BLUE)為c'\hat\beta
  • 其中,C是任一p+1维常数向量,\hat\beta\beta的最小二乘估计
  • 此定理说明了用普通最小二乘估计得到的\hat\beta是理想的估计量。
  • 需要注意以下四点:
5. cov(\hat\beta,e)=0
  • 说明\hat\betae不相关。
6. 当y~N(X\beta,\delta^2I_n)时,则
  • \hat\beta~N(\beta,\delta^2(X'X)^{-1}
  • SSE/{\delta^2}~\mathcal{X}^2(n-p-1)

四、回归方程的显著性检验

  • 在实际问题中,实现并不能断定随机变量与变量之间确有线性关系,在进行回归参数的估计前,通常用多元线性回归方程去拟合随机变量y与变量x_1,x_2,...,x_p之间的关系,只是根据一些定性分析所做的一种假设。
  • 因此在求出线性回归方程后,还需要对回归方程进行显著性校验。
  • 多元线性回归的显著性校验与一元线性回归方程的显著性校验有相同之处,也有不同之处。
1. F检验
  • 对多元线性回归方程的显著性检验就是要看自变量x_1,x_2,...,x_p从整体上对随机变量y是否有明显的影响。
  • 为此提出原假设H_0: \beta_1 = \beta_2 =... = \beta_p = 0
  • 如果H_0被介绍,则表示随机变量与自变量之间的关系由线性回归模型表示不合适。
  • 类似于一元线性回归检验,为了建立对H_0进行检验的F统计量,利用离差平方和的分解式\sum^n_{i=1}(y_i-\overline y)^2 = \sum^n_{i=1}(\hat y_i-\overline y)^2 + \sum^n_{i=1}(y_i-\overline y_i)^2 = SST = SSR + SSE
  • 构建的F检验统计量:F = \frac{SSR/p}{SSE/(n-p-1)}
  • 在正态假设下,当原假设H_0: \beta_1 = \beta_2 =... = \beta_p = 0成立时,F服从自由度为(p,n-p-1)的F分布。
  • 可以利用F统计量对回归平方和的总体显著性进行检验。
  • 对于给定的数据,计算出SSR和SSE,得到F值,再由给定的显著水平\alpha查F分布表,的临界值F_\alpha(p,n-p-1)
  • 方差分析表:
方差来源 自由度 平方和 均方 F值 P值
回归
残差
综合
p
n-p-1
n-1
SSR
SSE
SST
SSR/p
SSE/(n-p-1)
\frac{SSR/p}{SSE/(n-p-1)} P(F>F值)=P值
  • 当F大于临界值F_\alpha(p,n-p-1)时,拒绝原假设H_0,认为随机变量与自变量有显著线性关系。
  • 也可以根据P值做检验,当P值<α时,拒绝原假设H_0
2. t检验
  • 回归方程并不意味每个自变量对y的影响都显著,所以需要对每个自变量进行显著性检验。
  • 如果某个自变量x_j对y不显著,在回归模型中,它的系数\beta_j就取值为0。
  • 因此,检验变量x_j是否显著,等价于检验假设H_{0j}:\beta_1=0,j=1,2,...,p,如果拒绝原假设,则x_j显著。
  • 已知\hat\beta~N(\beta,\delta^2(X'X)^{-1},记作(X'X)^{-1}=(c_{ij}),i,j=0,1,2,...,p
  • E(\hat \beta_j) = \beta_j,var(\hat\beta_j) = c_{jj}\delta^2,\hat\delta_j~N(\delta_j,c_{jj}\delta^2),j=0,1,2,...,p
  • 据此可以构造t统计量:t_j = \frac{\hat\beta_j}{\sqrt{c_{jj}\hat\delta}}
  • 其中\hat\delta是回归标准差:\hat\delta = \sqrt{\frac{1}{n-p-1}\sum^n_{i=1}e^2_i} = \sqrt{\frac{1}{n-p-1}\sum^n_{i=1}(y_i - \hat y_i)^2}
  • 由于某些自变量不显著,因而在多元回归中并不是包含在回归方程中的自变量越多越好。
  • 当有多个自变量y无显著影响时,由于自变量之间的交互作用,不能一次剔除掉所有不显著的变量,原则上每次只剔除一个|t|值最小或P值最大的变量,然后再对求得的新的回归方程进行检验,知道保留的变量都对y有显著影响为止。
  • 在一元线性回归中,回归系数显著性的t检验与回归方程显著性的F检验是等价的,但是在多元线性回归中,这两种检验不等价。
3. 回归系数的置信区间
  • 当有了参数向量\beta的估计量\hat\beta时,\hat\beta\beta的接近程度如何,就需要构造\beta_j的一个以\hat\beta_j为中心的区间,该区间以一定的概率包含\hat\beta_j
  • 已知t_j = \frac{\hat\beta_j - \beta_j}{\sqrt{c_{jj}\hat\delta}}~t(n-p-1),可得1-\alpha的置信区间为:(\hat\beta_j - t_{\alpha/2}\sqrt{c_{jj}}\hat\delta,\hat\beta_j + t_{\alpha/2}\sqrt{c_{jj}}\hat\delta)
4. 拟合优度
  • 拟合优度用于检验回归方程对样本观测值的拟合度。
  • 与一元线性回归中,样本决定系数为:R^2 = \frac{SSR}{SST}= 1 - \frac{SSE}{SST}
  • 样本决定系数R^2的取值再[0,1]区间内,R^2越接近1,表明回归拟合的效果越好。
  • 与F检验相比,R^2可以更清楚直观地反映回归拟合的效果,但并不能作为严格的显著性检验。
  • R = \sqrt{R^2} = \sqrt{ \frac{SSR}{SST}}为y关于x_1,x_2,...,x_p的样本复相关系数。
  • 在两个变量的简单相关系数中,相关系数有正负之分,而复相关系数表示的事因变量y与全体自变量之间的线性关系,它的符号不能由某一个自变量的回归系数的符号来确定,因而都取正号。
  • 复相关系数R用来表示回归方程对原有数据的拟合程度,它衡量作为一个整体的x_1,x_2,...,x_p与y的线性关系。
  • R^2到底多大,才能通过拟合优度检验,需要根据具体情况来定:
  • 当n较大时,即使R^2在0.7左右,也给回归模型肯定态度。
  • 当n与自变量个数接近时,R^2易接近1.
  • 拟合优度并不是检验模型优劣的唯一标准,需慎重考虑。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容