大师兄的应用回归分析学习笔记(三):一元线性回归(二)

大师兄的应用回归分析学习笔记(二):一元线性回归(一)
大师兄的应用回归分析学习笔记(四):多元线性回归(一)

四、回归方程的显著性检验

  • 当我们得到一个实际问题的经验回归方程\hat y = \hat\beta_0 + \hat\beta_1 x后,还不能马上就用它去做分析和预测,需要运用统计方法对回归方程进行检验。
  • 在检验时,经常要做正态性假设\epsilon_i \sim N(0,\delta^2)
1. t检验
  • 在回归分析中,t检验用于检验回归系数的显著性。
  • 检验原假设:H_0:\beta_1=0
  • 备择假设:H_1:\beta_1\neq 0
  • 回归系数的显著性检验就是要检验自变量x对因变量y的影响程度是否显著,。
  • 如果原假设H_0成立,则因变量y与自变量x之间并没有真正的线性关系,即x的变化对y没有影响。
  • 已知:\hat\beta_1 \sim N(\beta_1,\frac{\delta^2}{L_{xx}}),当原假设H_0:\beta_1=0成立,有\hat\beta_1 \sim N(0,\frac{\delta^2}{L_{xx}})
  • 此时\hat\beta_1在零附近波动,构造t统计量t = \frac{\hat\beta_1}{\sqrt{\hat\delta^2/L_{xx}}} = \frac{\hat\beta_1 \sqrt{L{xx}}}{\hat\delta}式中\hat\delta^2 = \frac{1}{n-2}\sum^n_{i=1}e^2_i = \frac{1}{n-2}\sum^n_{i=1}(y_i - \hat y_i)^2\delta^2的无偏估计,称\hat\delta为回归标准差。
  • 可以看出,t统计量就是回归系数的最小二乘估计值除以其标准差的样本估计值
  • 当原假设H_0:\beta_1=0成立时,t统计量服从自由度为n-2的t分布。
  • 给定显著性水平\alpha
  • 双侧检验的临界值为t_{\alpha/2}
  • |t|\geq t_{\alpha/2}时,拒绝原假设,认为\beta_1的显著不为零,因变量y对自变量x的一元线性回归成立。
  • |t|< t_{\alpha/2}时,接受原假设,认为\beta_1为0,因变量y对自变量x的一元线性回归不成立。
2. 统计软件
  • 目前国际上通用的统计软件有多种,其中使用最多的时SPSS、SAS和R这三种。

  • SPSS:

  • 优点:完全菜单化、操作界面优化、输出结果美观,在统计专业和非统计专业都有广泛的应用。
  • 缺点:功能基本固定。
  • SAS:
  • 优点:功能更强大。
  • 缺点:没有菜单化、使用相对困难,软件费用更高。
  • R是由一些志愿者开发的免费自由统计软件:
  • 优点:内容丰富、更新迅速、可以自由编程灵活分析
  • 缺点:没有菜单化、输出的界面不够美观
  • 同一种统计方法可能有多个包合函数实现,各有各有特色和不足。
  • 个软件也开始注重联合使用,比如在SPSS中安装R插件。
3. F检验
  • F检验也用于检验线性回归方程的显著性,F检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。
  • 平方和分解式:\sum^n_{i=1}(y_i-\bar y)^2 = \sum^n_{i=1}(\hat y_i-\bar y)^2 + \sum^n_{i=1}(y_i-\hat y)^2
  • 总离差平方和(SST, S_总, L_{yy}, Sum of Squares for Total):\sum^n_{i=1}(y_i-\bar y)^2
  • 回归平方和(SSR,S_回,Sum of squares for Regression):\sum^n_{i=1}(\hat y_i-\bar y)^2
  • 残差平方和(SSE,S_残,Sum of squares for Error:\sum^n_{i=1}(y_i-\hat y)^2
  • 平方和分解式可以简写为:SST = SSR + SSE
  • SST反映因变量y的波动程度或称不确定性,在建立了y对x的线性回归方程后,SST就分解为SSRSSE两部分:
  • SSR是由回归方程确定的,也就是由自变量x的波动引起的,是能够由自变量解释的部分。
  • SSE是不能由自变量解释的波动,是有x之外的未加控制的因素引起的。
  • 因此SSR越大,回归的效果就越好。
  • F检验统计量如下:F = \frac{SSR/1}{SSE/(n-2)}
  • 在正态假设下,当原假设H_0:\beta_1=0成立时,F服从自由度为(1,n-2)的F分布。
  • 当F值大于临界值F_\alpha(1,n-2)时,拒绝原假设,说明回归方程显著,x和y有显著的线性关系。
  • 也可以根据P值做检验。


4. 相关系数的显著性检验
  • 由于一元线性回归方程讨论的变量x与变量y之间的线性关系,可以用变量x与y之间的相关系数来检验回归方程的显著性。
  • (x_i,y_i)(i=1,2,...,n)(x,y)的n组样本观测值,称r = \frac{\sum^n_{i=1}(x_i-x)(y_i-y)}{\sqrt{\sum^n_{i=1}(x_i - \bar x)^2 \sum^n_{i=1}(y_i - \bar y) ^2}} = \frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}}为x与y的简单相关系数
  • r表示x和y的线性关系的密切程度。
  • 相关系数的取值范围:|r|\leq1
  • 图(a) r=1是极端情况,表示x与y完全正相关。
  • 图(b) r=-1是极端情况,表示x与y完全负相关。
  • 图(c) r=0是极端情况,表示x与y完全不相关。
  • 图(d) |r|<1是极端情况,表示x与y有确定的非线性函数关系(曲线函数关系)。
  • 图(e) 0<|r|<1,表示x与y之间有非确定线性统计关系,正线性相关。
  • 图(f) -1<r<0,表示x与y负线性相关。
  • 表达式:r= \frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}} = \hat \beta_1\sqrt \frac{L_{xx}}{L_{yy}}
  • 可得出结论,一元线性回归的回归系数\hat\beta_1和相关系数r的符号相同。
  • 相关系数的明显缺点是,r1接近1的程度与数据组数n有关,容易造成假象:
  • 当n较小时,相关系数的绝对值容易接近1;
  • 当n较大时,相关系数的绝对值容易偏小。
5. 三种检验的关系
  • 回归系数的t检验回归方程的F检验相关系数的显著性检验这三种检验之间存在一定关系。
  • 对一元线性回归而言,这三种检验的结果完全一致:
  • 可以证明,回归系数的t检验相关系数的显著性检验完全等价。
  • F统计量则是t统计量的平方。
  • 但是对于多元线性回归,这三种检验所考虑的问题不同,所以并不等价,是三种不同的检验。
6. 决定系数
  • 总离差平方和回归平方和所占的比重越大,则线性回归效果越好,这说明回归直线与样本观测值的拟合优度越好,反之则说明回归直线与样本观测值拟合的不理想。
  • 回归平方和总理差平方和之比定义为**决定系数(coefficient of determination) **,记为r^2
  • r^2 = \frac{SSR}{SST} = \frac{\sum^n_{i=1}(\hat y_i - \overline y)^2}{\sum^n_{i=1}(y_i - \overline y)^2} = \frac{L^2_{xy}}{L_{xx}L_{yy}} = (r)^2
  • 决定系数r^2是反映回归直线与样本观测值拟合优度的相对指标,是因变量的变异中能用自变量解释的比例。
  • 决定系数r^2的值在0~1之间,越接近1说明拟合优度越好,需要注意以下方面:
  • 当样本较小时,即使得到一个较大的决定系数,也很可能是虚假现象。为此,可以结合样本量和自变量个数,对决定系数做调整,计算调整的决定系数。
  • 即使样本量不小,决定系数很大,也不能肯定自变量与因变量之间的关系就是线性的,因为有可能曲线回归的效果更好。
  • 当计算出一个很小的决定系数时,不论样本大小,都应该尝试改进回归的效果,例如增加自变量,改用曲线回归等。

五、残差分析

  • 一个线性回归方程通过了t检验或F检验,只是表明变量x与y之间的线性关系是显著的,但不能保证数据拟合的很好,也不能排除由于意外原因而导致的数据不完全可靠,比如有异常值出现、周期性因素干扰等。
  • 只有当与模型中的残差项有关的假定满足时,才能放心运用回归模型。
  • 因此,在利用回归方程做分析和预测前,应该用残差图帮助诊断回归效果样本数量的质量,检查模型是否满足基本假定,以便对模型做进一步的修改。
1. 残差的概念与残差图
  • 残差是实际观测值y与通过回归方程给出的回归值之差,残差e_i可以看作误差项\epsilon_i的估计值,e_i = y_i - \hat y = \epsilon_i = y_i - \beta_0 - \beta_1x_i
  • 以自变量x作横轴,以残差作纵轴,将相应的残差点花在直角坐标系上,可以得到残差图。


  • (a) 所有残差在e=0附近随机变化,并在变化幅度不大的一个区域内,说明一个回归模型满足所给出的基本假定。
  • (b) 表明y的观测值的方差并不相同,而是随着x的增大而增大。
  • (c) 表明y和x之间的关系并非线性关系,而是曲线关系,可能存在自相关,或需要用另外的曲线方程拟合样本观测值y。
  • (d) 蜘蛛网现象,表明y存在自相关。
2. 有关残差的性质
  • 性质1E(e_i) = 0
  • 证明:E(e_i) = E(y_i) - E(\hat y_i) = (\beta_0 + \beta_1x_i) - (\beta_0 + \beta_1x_i)=0
  • 性质2var(e_i) =[1 - \frac{1}{n} - \frac{(x_i - \overline x)^2}{L_{xx}}]\delta^2 = (1-h_{ii})\delta^2
  • 其中:h_{ii} = \frac{1}{n} + \frac{(x_i - \overline x)^2}{L{xx}},0 < h_{ii} < 1被称为杠杆值
  • x_i靠近\overline x时,h_{ii}的值接近0,相应的残差方差大。
  • 反之h_{ii}的值接近1,相应的残差方差大。
  • 也就是说靠近\overline x的点相应的残差方差较大,反之残差方差较小,这是因为远离\overline x的点数目必然较少,回归线容易接近到这样的少数点。
  • 性质3:残差满足约束条件\sum^n_{i=1}e_i = 0, \sum^n_{i=1}x_ie_i=0
  • 表明残差e_1,e_2,...,e_n是相关的,不是独立的。
3. 改进的残差
  • 在残差分析中,一般认为超过\pm2\overline\delta 或 \pm3\overline\delta的残差为异常值。
  • 考虑到普通残差e_i,e_2,...,e_n的方差不等,用e_i做判断和比较会带来一定的麻烦,因此引入标准化残差学生化残差的概念。
  • 标准化残差:ZRE_i = \frac{e_i}{\hat \delta}
  • 标准化残差使残差具有可比性,|ZRE_i| > 3的相应观测值即判定为异常值。
  • 但没有解决方差不等的问题。
  • 学生化残差:SRE_i = \frac{e_i}{\hat \delta\sqrt{1-h_{ii}}}
  • 学生化残差进一步解决了方差不等的问题,因此在寻找异常值时,用学生化残差优于普通残差。
  • 学生化残差的构造公式类似于t检验公式。

六、回归系数的区间估计

  • 当我们用最小二乘法得到\beta_0,\beta_1的点估计后,在实际应用中往往还希望给出回归系数的估计精度,即给出置信水平为1-\alpha的置信区间。
  • 置信区间的估值越短,说明估值\hat \beta_0,\hat \beta_1\beta_0,\beta_1越接近,估值越精确。
  • 在实际应用中,主要关心回归系数\hat \beta_1的精度,\beta_1的置信度为1-\alpha的置信区间为\hat\beta - t_{\alpha/2}\frac{\hat \delta}{\sqrt{L_{xx}}}, \hat\beta + t_{\alpha/2}\frac{\hat \delta}{\sqrt{L_{xx}}}

七、预测和控制

  • 建立模型最重要的应用就是预测控制
1. 单值预测
  • 单值预测使用单个值作为因变量新值的预测值。
  • 建立回归方程\hat y = \hat \beta_0 + \hat \beta_1 x_i,当x=x_0时,\hat y = \hat \beta_0 + \hat \beta_1 x_0,即因变量新值y_0 = \beta_0 + \beta_1 x_0 + \epsilon_0的单预测值。
  • 由于y_0是一个随机变量,因此这个预测不能用普通的无偏性衡量。
2. 区间预测
  • 对于预测问题,除了预测值,还需要知道预测的精度,需要做区间预测
  • 找一个区间(T_1,T_2),使对应于某特定的x_0的实际值y_01-\alpha的概率被区间(T_1,T_2)包含,即P(T_1<y_0<T_2) = 1-\alpha
  • 对因变量的区间预测分两种情况:
  • 因变量新值的区间预测
  • 因变量新值的平均值的区间预测
2.1 因变量新值的区间预测
  • 为了给出y_0的置信区间,首先需要求出其估计值\hat y = \hat \beta_0 + \hat \beta_1 x_0的分布。
  • 由于服从正态分布,其期望住为E(\hat y_0) = \beta_0 + \beta_1 x_0
  • 可以求得y_0的置信度为1-\alpha的置信区间为:\hat y\pm t_{\alpha /2}(n-1) \sqrt{1 + h_{00}}\hat\delta
  • 当样本量n较大,|x_0 - \overline x|较小时,h_{00}接近0,y_0的置信度为95%的置信区间近似为\hat y_0 \pm 2\hat \delta
  • 由此可以看出:
  • 样本越大,预测精度越高。
  • 采集数据x_1,x_2,...,x_n不能太集中。
  • 在进行预测时,所给定的x_0不能偏离\overline x太大,最准的情况是x_0 = \overline x,自变量观测之外的范围预测精度较差。
2.2 因变量新值的平均值的区间预测
  • 除了因变量单个新值的置信区间,另一种情况是因变量新值的平均值的区间估计。
  • E(y_0)的点估计仍为\hat y_0 = \hat \beta_0 + \hat \beta_1 x_0
  • 区间估计为\hat y_0 \pm t_{\alpha/2}(n-2)\sqrt{h_{00}}\hat \delta
3. 控制问题
  • 控制问题相当于预测的反问题,即要求T_1 < y < T_2
  • 在统计学中,通过控制自变量x的值,以1-\alpha的概率保证把目标值y控制在T_1 < y < T_2中,即P(T_1<y<T_2) = 1-\alpha , 0<\alpha<1
  • 可以求出x的取值区间:
  • \hat \beta_1 >0时:\frac{T_1 + 2\hat \delta - \hat \beta_0}{\hat \beta_1} < x < \frac{T_2 - 2\hat \delta - \hat \beta_0}{\hat \beta_1}
  • \hat \beta_1 <0时:\frac{T_2 - 2\hat \delta - \hat \beta_0}{\hat \beta_1} < x < \frac{T_1 + 2\hat \delta - \hat \beta_0}{\hat \beta_1}
  • 控制问题的应用要求因变量x与自变量y之间有因果关系,经常在工业生产的质量控制中使用。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容