大师兄的应用回归分析学习笔记(二):一元线性回归(一)
大师兄的应用回归分析学习笔记(四):多元线性回归(一)
四、回归方程的显著性检验
- 当我们得到一个实际问题的经验回归方程
后,还不能马上就用它去做分析和预测,需要运用统计方法对回归方程进行检验。
- 在检验时,经常要做正态性假设
。
1. t检验
- 在回归分析中,t检验用于检验回归系数的显著性。
- 检验原假设:
![]()
- 备择假设:
![]()
- 回归系数的显著性检验就是要检验自变量x对因变量y的影响程度是否显著,。
- 如果原假设
成立,则因变量y与自变量x之间并没有真正的线性关系,即x的变化对y没有影响。
- 已知:
,当原假设
成立,有
。
- 此时
在零附近波动,构造t统计量
式中
是
的无偏估计,称
为回归标准差。
- 可以看出,t统计量就是回归系数的最小二乘估计值除以其标准差的样本估计值。
- 当原假设
成立时,t统计量服从自由度为n-2的t分布。
- 给定显著性水平
![]()
- 双侧检验的临界值为
![]()
- 当
时,拒绝原假设,认为
的显著不为零,因变量y对自变量x的一元线性回归成立。
- 当
时,接受原假设,认为
为0,因变量y对自变量x的一元线性回归不成立。
2. 统计软件
-
目前国际上通用的统计软件有多种,其中使用最多的时SPSS、SAS和R这三种。
SPSS:
- 优点:完全菜单化、操作界面优化、输出结果美观,在统计专业和非统计专业都有广泛的应用。
- 缺点:功能基本固定。
- SAS:
- 优点:功能更强大。
- 缺点:没有菜单化、使用相对困难,软件费用更高。
- R是由一些志愿者开发的免费自由统计软件:
- 优点:内容丰富、更新迅速、可以自由编程灵活分析
- 缺点:没有菜单化、输出的界面不够美观
- 同一种统计方法可能有多个包合函数实现,各有各有特色和不足。
- 个软件也开始注重联合使用,比如在SPSS中安装R插件。
3. F检验
- F检验也用于检验线性回归方程的显著性,F检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。
- 平方和分解式:
- 总离差平方和(SST,
, Sum of Squares for Total):
![]()
- 回归平方和(SSR,
,Sum of squares for Regression):
![]()
- 残差平方和(SSE,
,Sum of squares for Error:
![]()
- 平方和分解式可以简写为:
- SST反映因变量y的波动程度或称不确定性,在建立了y对x的线性回归方程后,SST就分解为SSR和SSE两部分:
- SSR是由回归方程确定的,也就是由自变量x的波动引起的,是能够由自变量解释的部分。
- SSE是不能由自变量解释的波动,是有x之外的未加控制的因素引起的。
- 因此SSR越大,回归的效果就越好。
- F检验统计量如下:
:
- 在正态假设下,当原假设
成立时,F服从自由度为(1,n-2)的F分布。
- 当F值大于临界值
时,拒绝原假设,说明回归方程显著,x和y有显著的线性关系。
-
也可以根据P值做检验。
4. 相关系数的显著性检验
- 由于一元线性回归方程讨论的变量x与变量y之间的线性关系,可以用变量x与y之间的相关系数来检验回归方程的显著性。
- 设
是
的n组样本观测值,称
为x与y的简单相关系数。
- r表示x和y的线性关系的密切程度。
- 相关系数的取值范围:
![]()
- 图(a) r=1是极端情况,表示x与y完全正相关。
- 图(b) r=-1是极端情况,表示x与y完全负相关。
- 图(c) r=0是极端情况,表示x与y完全不相关。
- 图(d) |r|<1是极端情况,表示x与y有确定的非线性函数关系(曲线函数关系)。
- 图(e) 0<|r|<1,表示x与y之间有非确定线性统计关系,正线性相关。
- 图(f) -1<r<0,表示x与y负线性相关。
- 表达式:
- 可得出结论,一元线性回归的回归系数
和相关系数r的符号相同。
- 相关系数的明显缺点是,r1接近1的程度与数据组数n有关,容易造成假象:
- 当n较小时,相关系数的绝对值容易接近1;
- 当n较大时,相关系数的绝对值容易偏小。
5. 三种检验的关系
- 回归系数的t检验、回归方程的F检验、相关系数的显著性检验这三种检验之间存在一定关系。
- 对一元线性回归而言,这三种检验的结果完全一致:
- 可以证明,回归系数的t检验和相关系数的显著性检验完全等价。
- 而F统计量则是t统计量的平方。
- 但是对于多元线性回归,这三种检验所考虑的问题不同,所以并不等价,是三种不同的检验。
6. 决定系数
- 在总离差平方和中回归平方和所占的比重越大,则线性回归效果越好,这说明回归直线与样本观测值的拟合优度越好,反之则说明回归直线与样本观测值拟合的不理想。
-
回归平方和与总理差平方和之比定义为**决定系数(coefficient of determination) **,记为
。
-
决定系数
是反映回归直线与样本观测值拟合优度的相对指标,是因变量的变异中能用自变量解释的比例。
-
决定系数
的值在0~1之间,越接近1说明拟合优度越好,需要注意以下方面:
- 当样本较小时,即使得到一个较大的决定系数,也很可能是虚假现象。为此,可以结合样本量和自变量个数,对决定系数做调整,计算调整的决定系数。
- 即使样本量不小,决定系数很大,也不能肯定自变量与因变量之间的关系就是线性的,因为有可能曲线回归的效果更好。
- 当计算出一个很小的决定系数时,不论样本大小,都应该尝试改进回归的效果,例如增加自变量,改用曲线回归等。
五、残差分析
- 一个线性回归方程通过了t检验或F检验,只是表明变量x与y之间的线性关系是显著的,但不能保证数据拟合的很好,也不能排除由于意外原因而导致的数据不完全可靠,比如有异常值出现、周期性因素干扰等。
- 只有当与模型中的残差项有关的假定满足时,才能放心运用回归模型。
- 因此,在利用回归方程做分析和预测前,应该用残差图帮助诊断回归效果与样本数量的质量,检查模型是否满足基本假定,以便对模型做进一步的修改。
1. 残差的概念与残差图
- 残差是实际观测值y与通过回归方程给出的回归值之差,残差
可以看作误差项
的估计值,
。
-
以自变量x作横轴,以残差作纵轴,将相应的残差点花在直角坐标系上,可以得到残差图。
- (a) 所有残差在e=0附近随机变化,并在变化幅度不大的一个区域内,说明一个回归模型满足所给出的基本假定。
- (b) 表明y的观测值的方差并不相同,而是随着x的增大而增大。
- (c) 表明y和x之间的关系并非线性关系,而是曲线关系,可能存在自相关,或需要用另外的曲线方程拟合样本观测值y。
- (d) 蜘蛛网现象,表明y存在自相关。
2. 有关残差的性质
-
性质1:
- 证明:
![]()
-
性质2:
- 其中:
被称为杠杆值
- 当
靠近
时,
的值接近0,相应的残差方差大。
- 反之
的值接近1,相应的残差方差大。
- 也就是说靠近
的点相应的残差方差较大,反之残差方差较小,这是因为远离
的点数目必然较少,回归线容易接近到这样的少数点。
-
性质3:残差满足约束条件
- 表明残差
是相关的,不是独立的。
3. 改进的残差
- 在残差分析中,一般认为超过
的残差为异常值。
- 考虑到普通残差
的方差不等,用
做判断和比较会带来一定的麻烦,因此引入标准化残差和学生化残差的概念。
- 标准化残差:
- 标准化残差使残差具有可比性,
的相应观测值即判定为异常值。
- 但没有解决方差不等的问题。
- 学生化残差:
- 学生化残差进一步解决了方差不等的问题,因此在寻找异常值时,用学生化残差优于普通残差。
- 学生化残差的构造公式类似于t检验公式。
六、回归系数的区间估计
- 当我们用最小二乘法得到
的点估计后,在实际应用中往往还希望给出回归系数的估计精度,即给出置信水平为
的置信区间。
- 置信区间的估值越短,说明估值
与
越接近,估值越精确。
- 在实际应用中,主要关心回归系数
的精度,
的置信度为
的置信区间为
七、预测和控制
- 建立模型最重要的应用就是预测和控制。
1. 单值预测
- 单值预测使用单个值作为因变量新值的预测值。
- 建立回归方程
,当
时,
,即因变量新值
的单预测值。
- 由于
是一个随机变量,因此这个预测不能用普通的无偏性衡量。
2. 区间预测
- 对于预测问题,除了预测值,还需要知道预测的精度,需要做区间预测。
- 找一个区间
,使对应于某特定的
的实际值
以
的概率被区间
包含,即
。
- 对因变量的区间预测分两种情况:
- 因变量新值的区间预测
- 因变量新值的平均值的区间预测
2.1 因变量新值的区间预测
- 为了给出
的置信区间,首先需要求出其估计值
的分布。
- 由于服从正态分布,其期望住为
- 可以求得
的置信度为
的置信区间为:
- 当样本量n较大,
较小时,
接近0,
的置信度为95%的置信区间近似为
。
- 由此可以看出:
- 样本越大,预测精度越高。
- 采集数据
不能太集中。
- 在进行预测时,所给定的
不能偏离
太大,最准的情况是
,自变量观测之外的范围预测精度较差。
2.2 因变量新值的平均值的区间预测
- 除了因变量单个新值的置信区间,另一种情况是因变量新值的平均值的区间估计。
-
的点估计仍为
。
- 区间估计为
3. 控制问题
- 控制问题相当于预测的反问题,即要求
。
- 在统计学中,通过控制自变量
的值,以
的概率保证把目标值y控制在
中,即
。
- 可以求出
的取值区间:
- 当
时:
![]()
- 当
时:
![]()
- 控制问题的应用要求因变量
与自变量
之间有因果关系,经常在工业生产的质量控制中使用。