大师兄的应用回归分析学习笔记（三）：一元线性回归（二）

大师兄的应用回归分析学习笔记（二）：一元线性回归（一）
大师兄的应用回归分析学习笔记（四）：多元线性回归（一）

四、回归方程的显著性检验

当我们得到一个实际问题的经验回归方程 $\hat y = \hat\beta_0 + \hat\beta_1 x$ 后，还不能马上就用它去做分析和预测，需要运用统计方法对回归方程进行检验。
在检验时，经常要做正态性假设 $\epsilon_i \sim N(0,\delta^2)$ 。

1. t检验

在回归分析中，t检验用于检验回归系数的显著性。

检验原假设： $H_0:\beta_1=0$

备择假设： $H_1:\beta_1\neq 0$

回归系数的显著性检验就是要检验自变量x对因变量y的影响程度是否显著,。
如果原假设 $H_0$ 成立，则因变量y与自变量x之间并没有真正的线性关系，即x的变化对y没有影响。
已知： $\hat\beta_1 \sim N(\beta_1,\frac{\delta^2}{L_{xx}})$ ，当原假设 $H_0:\beta_1=0$ 成立，有 $\hat\beta_1 \sim N(0,\frac{\delta^2}{L_{xx}})$ 。
此时 $\hat\beta_1$ 在零附近波动，构造t统计量 $t = \frac{\hat\beta_1}{\sqrt{\hat\delta^2/L_{xx}}} = \frac{\hat\beta_1 \sqrt{L{xx}}}{\hat\delta}$ 式中 $\hat\delta^2 = \frac{1}{n-2}\sum^n_{i=1}e^2_i = \frac{1}{n-2}\sum^n_{i=1}(y_i - \hat y_i)^2$ 是 $\delta^2$ 的无偏估计，称 $\hat\delta$ 为回归标准差。
可以看出，t统计量就是回归系数的最小二乘估计值除以其标准差的样本估计值。
当原假设 $H_0:\beta_1=0$ 成立时，t统计量服从自由度为n-2的t分布。

给定显著性水平 $\alpha$

双侧检验的临界值为 $t_{\alpha/2}$

当 $|t|\geq t_{\alpha/2}$ 时，拒绝原假设，认为 $\beta_1$ 的显著不为零，因变量y对自变量x的一元线性回归成立。

当 $|t|< t_{\alpha/2}$ 时，接受原假设，认为 $\beta_1$ 为0，因变量y对自变量x的一元线性回归不成立。

2. 统计软件

目前国际上通用的统计软件有多种，其中使用最多的时SPSS、SAS和R这三种。
SPSS:

优点：完全菜单化、操作界面优化、输出结果美观，在统计专业和非统计专业都有广泛的应用。

缺点：功能基本固定。

SAS：

优点：功能更强大。

缺点：没有菜单化、使用相对困难，软件费用更高。

R是由一些志愿者开发的免费自由统计软件：

优点：内容丰富、更新迅速、可以自由编程灵活分析

缺点：没有菜单化、输出的界面不够美观

同一种统计方法可能有多个包合函数实现，各有各有特色和不足。

个软件也开始注重联合使用，比如在SPSS中安装R插件。

3. F检验

F检验也用于检验线性回归方程的显著性，F检验是根据平方和分解式，直接从回归效果检验回归方程的显著性。
平方和分解式： $\sum^n_{i=1}(y_i-\bar y)^2 = \sum^n_{i=1}(\hat y_i-\bar y)^2 + \sum^n_{i=1}(y_i-\hat y)^2$

总离差平方和(SST, $S_总, L_{yy}$ , Sum of Squares for Total)： $\sum^n_{i=1}(y_i-\bar y)^2$

回归平方和(SSR, $S_回$ ，Sum of squares for Regression)： $\sum^n_{i=1}(\hat y_i-\bar y)^2$

残差平方和(SSE, $S_残$ ，Sum of squares for Error： $\sum^n_{i=1}(y_i-\hat y)^2$

平方和分解式可以简写为： $SST = SSR + SSE$
SST反映因变量y的波动程度或称不确定性，在建立了y对x的线性回归方程后，SST就分解为SSR和SSE两部分：

SSR是由回归方程确定的，也就是由自变量x的波动引起的，是能够由自变量解释的部分。

SSE是不能由自变量解释的波动，是有x之外的未加控制的因素引起的。

因此SSR越大，回归的效果就越好。

F检验统计量如下： $F = \frac{SSR/1}{SSE/(n-2)}$ ：

在正态假设下，当原假设 $H_0:\beta_1=0$ 成立时，F服从自由度为(1,n-2)的F分布。

当F值大于临界值 $F_\alpha(1,n-2)$ 时，拒绝原假设，说明回归方程显著，x和y有显著的线性关系。

也可以根据P值做检验。

4. 相关系数的显著性检验

由于一元线性回归方程讨论的变量x与变量y之间的线性关系，可以用变量x与y之间的相关系数来检验回归方程的显著性。
设 $(x_i,y_i)(i=1,2,...,n)$ 是 $(x,y)$ 的n组样本观测值，称 $r = \frac{\sum^n_{i=1}(x_i-x)(y_i-y)}{\sqrt{\sum^n_{i=1}(x_i - \bar x)^2 \sum^n_{i=1}(y_i - \bar y) ^2}} = \frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}}$ 为x与y的简单相关系数。

r表示x和y的线性关系的密切程度。

相关系数的取值范围： $|r|\leq1$

图(a) r=1是极端情况，表示x与y完全正相关。

图(b) r=-1是极端情况，表示x与y完全负相关。

图(c) r=0是极端情况，表示x与y完全不相关。

图(d) |r|<1是极端情况，表示x与y有确定的非线性函数关系（曲线函数关系）。

图(e) 0<|r|<1，表示x与y之间有非确定线性统计关系，正线性相关。

图(f) -1<r<0，表示x与y负线性相关。

表达式： $r= \frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}} = \hat \beta_1\sqrt \frac{L_{xx}}{L_{yy}}$

可得出结论，一元线性回归的回归系数 $\hat\beta_1$ 和相关系数r的符号相同。

相关系数的明显缺点是，r1接近1的程度与数据组数n有关，容易造成假象：

当n较小时，相关系数的绝对值容易接近1；

当n较大时，相关系数的绝对值容易偏小。

5. 三种检验的关系

回归系数的t检验、回归方程的F检验、相关系数的显著性检验这三种检验之间存在一定关系。
对一元线性回归而言，这三种检验的结果完全一致：

可以证明，回归系数的t检验和相关系数的显著性检验完全等价。

而F统计量则是t统计量的平方。

但是对于多元线性回归，这三种检验所考虑的问题不同，所以并不等价，是三种不同的检验。

6. 决定系数

在总离差平方和中回归平方和所占的比重越大，则线性回归效果越好，这说明回归直线与样本观测值的拟合优度越好，反之则说明回归直线与样本观测值拟合的不理想。
回归平方和与总理差平方和之比定义为**决定系数(coefficient of determination) **，记为 $r^2$ 。
$r^2 = \frac{SSR}{SST} = \frac{\sum^n_{i=1}(\hat y_i - \overline y)^2}{\sum^n_{i=1}(y_i - \overline y)^2} = \frac{L^2_{xy}}{L_{xx}L_{yy}} = (r)^2$
决定系数 $r^2$ 是反映回归直线与样本观测值拟合优度的相对指标，是因变量的变异中能用自变量解释的比例。
决定系数 $r^2$ 的值在0~1之间，越接近1说明拟合优度越好，需要注意以下方面：

当样本较小时，即使得到一个较大的决定系数，也很可能是虚假现象。为此，可以结合样本量和自变量个数，对决定系数做调整，计算调整的决定系数。

即使样本量不小，决定系数很大，也不能肯定自变量与因变量之间的关系就是线性的，因为有可能曲线回归的效果更好。

当计算出一个很小的决定系数时，不论样本大小，都应该尝试改进回归的效果，例如增加自变量，改用曲线回归等。

五、残差分析

一个线性回归方程通过了t检验或F检验，只是表明变量x与y之间的线性关系是显著的，但不能保证数据拟合的很好，也不能排除由于意外原因而导致的数据不完全可靠，比如有异常值出现、周期性因素干扰等。
只有当与模型中的残差项有关的假定满足时，才能放心运用回归模型。
因此，在利用回归方程做分析和预测前，应该用残差图帮助诊断回归效果与样本数量的质量，检查模型是否满足基本假定，以便对模型做进一步的修改。

1. 残差的概念与残差图

残差是实际观测值y与通过回归方程给出的回归值之差，残差 $e_i$ 可以看作误差项 $\epsilon_i$ 的估计值， $e_i = y_i - \hat y = \epsilon_i = y_i - \beta_0 - \beta_1x_i$ 。
以自变量x作横轴，以残差作纵轴，将相应的残差点花在直角坐标系上，可以得到残差图。

(a) 所有残差在e=0附近随机变化，并在变化幅度不大的一个区域内，说明一个回归模型满足所给出的基本假定。

(b) 表明y的观测值的方差并不相同，而是随着x的增大而增大。

(c) 表明y和x之间的关系并非线性关系，而是曲线关系，可能存在自相关，或需要用另外的曲线方程拟合样本观测值y。

(d) 蜘蛛网现象，表明y存在自相关。

2. 有关残差的性质

性质1： $E(e_i) = 0$

证明： $E(e_i) = E(y_i) - E(\hat y_i) = (\beta_0 + \beta_1x_i) - (\beta_0 + \beta_1x_i)=0$

性质2： $var(e_i) =[1 - \frac{1}{n} - \frac{(x_i - \overline x)^2}{L_{xx}}]\delta^2 = (1-h_{ii})\delta^2$

其中： $h_{ii} = \frac{1}{n} + \frac{(x_i - \overline x)^2}{L{xx}},0 < h_{ii} < 1$ 被称为杠杆值

当 $x_i$ 靠近 $\overline x$ 时， $h_{ii}$ 的值接近0，相应的残差方差大。

反之 $h_{ii}$ 的值接近1，相应的残差方差大。

也就是说靠近 $\overline x$ 的点相应的残差方差较大，反之残差方差较小，这是因为远离 $\overline x$ 的点数目必然较少，回归线容易接近到这样的少数点。

性质3：残差满足约束条件 $\sum^n_{i=1}e_i = 0, \sum^n_{i=1}x_ie_i=0$

表明残差 $e_1,e_2,...,e_n$ 是相关的，不是独立的。

3. 改进的残差

在残差分析中，一般认为超过 $\pm2\overline\delta 或 \pm3\overline\delta$ 的残差为异常值。
考虑到普通残差 $e_i,e_2,...,e_n$ 的方差不等，用 $e_i$ 做判断和比较会带来一定的麻烦，因此引入标准化残差和学生化残差的概念。
标准化残差： $ZRE_i = \frac{e_i}{\hat \delta}$

标准化残差使残差具有可比性， $|ZRE_i| > 3$ 的相应观测值即判定为异常值。

但没有解决方差不等的问题。

学生化残差： $SRE_i = \frac{e_i}{\hat \delta\sqrt{1-h_{ii}}}$

学生化残差进一步解决了方差不等的问题，因此在寻找异常值时，用学生化残差优于普通残差。

学生化残差的构造公式类似于t检验公式。

六、回归系数的区间估计

当我们用最小二乘法得到 $\beta_0,\beta_1$ 的点估计后，在实际应用中往往还希望给出回归系数的估计精度，即给出置信水平为 $1-\alpha$ 的置信区间。
置信区间的估值越短，说明估值 $\hat \beta_0,\hat \beta_1$ 与 $\beta_0,\beta_1$ 越接近，估值越精确。
在实际应用中，主要关心回归系数 $\hat \beta_1$ 的精度， $\beta_1$ 的置信度为 $1-\alpha$ 的置信区间为 $\hat\beta - t_{\alpha/2}\frac{\hat \delta}{\sqrt{L_{xx}}}, \hat\beta + t_{\alpha/2}\frac{\hat \delta}{\sqrt{L_{xx}}}$

七、预测和控制

建立模型最重要的应用就是预测和控制。

1. 单值预测

单值预测使用单个值作为因变量新值的预测值。
建立回归方程 $\hat y = \hat \beta_0 + \hat \beta_1 x_i$ ，当 $x=x_0$ 时， $\hat y = \hat \beta_0 + \hat \beta_1 x_0$ ，即因变量新值 $y_0 = \beta_0 + \beta_1 x_0 + \epsilon_0$ 的单预测值。
由于 $y_0$ 是一个随机变量，因此这个预测不能用普通的无偏性衡量。

2. 区间预测

对于预测问题，除了预测值，还需要知道预测的精度，需要做区间预测。
找一个区间 $(T_1,T_2)$ ，使对应于某特定的 $x_0$ 的实际值 $y_0$ 以 $1-\alpha$ 的概率被区间 $(T_1,T_2)$ 包含，即 $P(T_1<y_0<T_2) = 1-\alpha$ 。
对因变量的区间预测分两种情况：

因变量新值的区间预测

因变量新值的平均值的区间预测

2.1 因变量新值的区间预测

为了给出 $y_0$ 的置信区间，首先需要求出其估计值 $\hat y = \hat \beta_0 + \hat \beta_1 x_0$ 的分布。
由于服从正态分布，其期望住为 $E(\hat y_0) = \beta_0 + \beta_1 x_0$
可以求得 $y_0$ 的置信度为 $1-\alpha$ 的置信区间为： $\hat y\pm t_{\alpha /2}(n-1) \sqrt{1 + h_{00}}\hat\delta$
当样本量n较大， $|x_0 - \overline x|$ 较小时， $h_{00}$ 接近0， $y_0$ 的置信度为95%的置信区间近似为 $\hat y_0 \pm 2\hat \delta$ 。
由此可以看出：

样本越大，预测精度越高。

采集数据 $x_1,x_2,...,x_n$ 不能太集中。

在进行预测时，所给定的 $x_0$ 不能偏离 $\overline x$ 太大，最准的情况是 $x_0 = \overline x$ ，自变量观测之外的范围预测精度较差。

2.2 因变量新值的平均值的区间预测

除了因变量单个新值的置信区间，另一种情况是因变量新值的平均值的区间估计。
$E(y_0)$ 的点估计仍为 $\hat y_0 = \hat \beta_0 + \hat \beta_1 x_0$ 。
区间估计为 $\hat y_0 \pm t_{\alpha/2}(n-2)\sqrt{h_{00}}\hat \delta$

3. 控制问题

控制问题相当于预测的反问题，即要求 $T_1 < y < T_2$ 。
在统计学中，通过控制自变量 $x$ 的值，以 $1-\alpha$ 的概率保证把目标值y控制在 $T_1 < y < T_2$ 中，即 $P(T_1<y<T_2) = 1-\alpha , 0<\alpha<1$ 。
可以求出 $x$ 的取值区间：

当 $\hat \beta_1 >0$ 时： $\frac{T_1 + 2\hat \delta - \hat \beta_0}{\hat \beta_1} < x < \frac{T_2 - 2\hat \delta - \hat \beta_0}{\hat \beta_1}$

当 $\hat \beta_1 <0$ 时： $\frac{T_2 - 2\hat \delta - \hat \beta_0}{\hat \beta_1} < x < \frac{T_1 + 2\hat \delta - \hat \beta_0}{\hat \beta_1}$