大师兄的应用回归分析学习笔记（二）：一元线性回归（一）

一、一元回归模型

一元线性回归是描述两个变量之间统计关系最简单的回归模型。

1. 模型的实际背景

在实际问题研究中，经常需要研究某一现象欲影响它的某一最主要因素的关系。
非确定线性关系：两个变量之间有密切关系，但它们之间密切的程度达不到一个变量唯一确定另一个变量。

2. 数学形式

$y = \beta_0 + \beta_1 x + \epsilon$

x的变化引起y的线性变化，即 $\beta_0 + \beta_1 x$ 。

其它的一切随机因素为 $\epsilon$ 。

y为被解释变量（因变量）

x为解释变量（自变量）

$\beta_0$ 和 $\beta_1$ 是未知参数， $\beta_0$ 为回归常数， $\beta_1$ 为回归系数。

通常假定 $\epsilon$ 满足： $\begin{cases} E(\epsilon)=0 \\ var(\epsilon) = \delta^2 \end{cases}$

$E(\epsilon)$ 表示数学期望

$var(\epsilon)$ 表示方差

回归方程： $E(y|x) = \beta_0 + \beta_1 x$ ，从平均意义上表达了变量y与x的统计规律性。
回归分析的主要任务就是通过n组样本观测值 $(x_1,y_i)(i=1,2,...,n)$ 对 $\beta_0$ , $\beta_1$ 进行估计，一般用 $\hat\beta_0$ , $\hat\beta_1$ 表示估计值。
一元线性经验回归方程： $\hat y = \hat\beta_0 + \hat\beta_1 x$

$\hat\beta_0$ 表示经验回归直线在纵轴上的截距，如果 $x\neq0，\hat\beta_0$ 只是作为回归方程中的分开项，没有具体意义。

$\hat\beta_1$ 表示经验回归直线的斜率，在实际应用中表示自变量x每增加一个单位时，因变量y的平均增加数量。

实际中，为了方便对参数做区间估计和假设检验，假定误差项 $\epsilon$ 服从正态分布，即 $\epsilon\sim N(0,\delta^2)$ 。

二、参数 $\beta_0,\beta_1$ 的估计

1. 普通最小二乘估计

为了由样本数据得到回归参数 $\beta_0$ 和 $\beta_1$ 的理想估计值，通常使用普通最小二乘估计(ordinary least estimation, OLSE)。
最小二乘法就是寻找参数 $\beta_0,\beta_1$ 的估计值 $\hat\beta_0,\hat\beta_1$ 。
对每一个样本观测值 $(x_i,y_i)$ ，最小二乘法考虑观测值 $y_i$ ，与其回归值 $E(y_i) = \beta_0 +\beta_1 x_i$ 的离差越小越好。
离差平方和达到极小，满足： $Q(\hat\beta_0,\hat\beta_1) = \sum^n_{i=1}(y_i-\hat\beta_0 - \hat\beta_1 x_i)^2 = \underset{\beta_0,\beta_1}{\min}\sum^n_{i=1}(y_i-\hat\beta_0 - \hat\beta_1 x_i)^2$

求出的 $\hat\beta_0,\hat\beta_1$ 称为回归参数 $\beta_0,\beta_1$ 的最小二乘估计。

$\hat y_i = \hat\beta_0 + \hat\beta_1 x_i$ 为 $y_i(i=1,2,...,n)$ 的回归拟合值。

$e_i = y_i - \hat y_i$ 为 $y_i (i=1,2,...,n)$ 的残差。

从几何关系上看，用一段线性回归方程拟合n个样本观测点，要求回归直线 $\hat y_i = \hat\beta_0 + \hat\beta_1 x_i$ 位于这n个样本点中间，或者说n个样本点最靠近这条回归直线。

残差平方和 $\sum^n_{i=1}e^2_i = \sum^n_{i=1}(y_i - \hat\beta_0 - \hat\beta_1 x_i)^2$ 从整体上刻画了n个样本观测点到回归直线 $\hat y_i = \hat\beta_0 + \hat\beta_1 x_i$ 距离的长短。

从物理学角度看，回归直线通过样本的重心。

为了确定回归直线就是使它与所有样本数据点都比较靠近，为了刻画这种靠近程度，人们曾设想用绝对残差和，即 $\sum^n_{i=1}|e_i| = \sum^n_{i=1}|y_i - \hat y_i|$ 来度量观测值与回归直线的接近程度，但是绝对残差在数学处理上比较麻烦，所以在经典的回归分析中，都用残差平方和方式来描述因变量观测值与回归直线的偏离程度。

2. 最大似然估计

最大似然估计(maximum likelihood estimation, MLE)是利用总体的分布密度或概率分布的表达式及样本所提供的信息求未知参数估计量的一种方法，也可以作为回归参数的估计方法。
比如已知事件A发生的概率p只可能是0.01或0.1，若在一次实验中时间A发生了，自然应当认为事件A发生的概率p是0.1，而不是0.01。把这种考虑问题的方法一般化，就得到最大似然准则。
对连续型随机变量，似然函数就是样本的联合分布密度函数；对离散型随机变量，似然函数就是样本的联合概率函数。
一元线性回归模型参数的最大似然估计，如果已经得到样本观测值 $(x_i,y_i)(i=1,2,...,n)$ ，其中 $x_i$ 为非随机变量， $y_1,y_2,...,y_n$ 为随机样本，假设 $\epsilon \sim N(0,\delta^2)$ 时，

$y_i$ 服从正态分布 $y_i \sim N(\beta_0 + \beta_1 x_i,\delta^2)$

$y_i$ 的分部密度为 $f_i(y_i) = \frac{1}{\sqrt{2\pi\delta}}exp\{-\frac{1}{2\delta^2}[y_i - (\beta_0 + \beta_1 x_1)]^2\},i=1,2,...,n$

$y_1,y_2,...,y_n$ 似然函数为： $L(\beta_0,\beta_1,\delta^2) = \Pi^n_{i=1}f_i(y_i)= 2(\pi\delta^2)^{-\frac{\pi}{2}}exp\{-\frac{1}{2\delta^2}\sum^n_{i=1}[y_i - (\beta_0 + \beta_1 x_1)]^2\}$

$\delta^2$ 的有偏估计值： $\hat\delta^2 = \frac{1}{n}\sum^n_{i=1}(y_i - \hat y_i)^2 = \frac{1}{n}\sum^n_{i=1}[y_i - (\hat\beta_0 + \hat\beta_1 x_i)]^2$

$\delta^2$ 的无偏估计值： $\hat\delta^2 = \frac{1}{n-2}\sum^n_{i=1}(y_i - \hat y_i)^2 = \frac{1}{n-2}\sum^n_{i=1}[y_i - (\hat\beta_0 + \hat\beta_1 x_i)]^2$

三、最小二乘估计的性质

1. 线性

线性指的是估计量 $\hat\beta_0,\hat\beta_1$ 为随机变量y的线性函数。
因为 $y_i$ 为随机变量，所以作为 $y_i$ 的线性组合 $\hat\beta_0,\hat\beta_1$ 也是随机变量，各有其概率分布、均值、方差、标准差及两者的协方差。

2. 无偏性

无偏估计的意义是，如果屡次变更数据，反复求 $\beta_0,\beta_1$ 的估计值，则这两个估计量没有高估或低估的系统趋向，他们的平均值将趋于 $\beta_0,\beta_1$ 。
这表明回归值 $\hat y$ 是E(y)的无偏估计，也说明 $\hat y$ 与真实值y的平均值是相同的。

3. $\hat\beta_0,\hat\beta_1$ 的方差

一个估计量是无偏的，只揭示了估计量优良性的一个方面，通常还应关心估计量本身的波动状况，所以需要进一步研究它的方差。
$var(\hat\beta_1) = \sum^n_{i=1}[\frac{x_i-\bar x}{\sum^n_{j=1}(x_j-\bar x)^2}]^2var(y_i) = \frac{\delta^2}{\sum^n_{j=1}(x_j - \bar x)^2}$

$var(\hat\beta_1)$ 反映了 $\beta_1$ 的波动，即差异度。

$\beta_1$ 不仅与随机误差的方差 $delta^2$ 有关，而且与自变量x的取值离散程度有关。如果x的取值比较分散，即x的波动较大，则 $\beta_1$ 的波动就小，比较稳定。
$var(\hat\beta_0) = [\frac{1}{n} + \frac{(\bar x)^2}{\sum(x_i - \bar x)^2}]\delta^2$

可见回归常数 $\beta_0$ 的方差不仅与随机误差的方差 $\delta^2$ 和自变量x的取值离散程度有关，而且同样本数据的个数n有关。

n越大 $var(\hat \beta_0)$ 越小

所以要使 $\beta_0,\beta_1$ 的估计值 $\hat\beta_0,\hat\beta_1$ 更稳定，在收集数据时，就应该考虑x的取值尽可能分散一些，样本量也应该尽可能大一些。
由于 $\hat\beta_0,\hat\beta_1$ 服从正态分布，有

$\hat\beta_0 \sim N(\beta_0,(\frac{1}{n} +\frac{(\bar x)^2}{L_{xx}})\delta^2)$

$\hat\beta_1 \sim N(\beta_1,\frac{\delta^2}{L_{xx}})$

$\hat\beta_0,\hat\beta_1$ 的协方差： $cov(\hat\beta_0,\hat\beta_1) = -\frac{\bar x}{L_{xx}}\delta^2$ ，说明 $\bar x=0$ 时， $\hat\beta_0和\hat\beta_1$ 不相关，在正态假定下独立；在 $\bar x\neq 0$ 时不独立。

根据高斯-马尔科夫条件可以证明， $\hat\beta_0和\hat\beta_1$ 分别是 $\beta_0和\beta_1$ 的最佳线性无偏估计(beat linear unbiased estimator,BLUE)，也称为最小方差线性无偏估计。
对固定的 $x_0$ 来讲 $\hat y_0 = \hat\beta_0 + \hat\beta_1 x_0$ 也是 $y_1,y_2,...,y_n$ 的线性组合，且 $\hat y_0 \sim N(\beta_0 + \beta_1 x_0,(\frac{1}{n} + \frac{(x_0 - \bar x)^2}{L{xx}})\delta^2)$ 。

可见 $\bar y_0是E(y_0)$ 的无偏估计

且 $\bar y_0$ 的方差随给定的 $x_0$ 值与 $\overline x$ 的距离 $|x_0 - \overline x|$ 的增大而增大。

说明在实际应用回归方程进行控制和预测时，给定的 $x_0$ 值不能偏离样本均值太多，否则无论用回归方程做因素分析还是预测效果都不会理想。