大师兄的应用回归分析学习笔记(十四):自变量选择与逐步回归(二)
三、逐步回归
- 从多元线性回归中可以看到,并不是所有自变量都对因变量y有显著的影响,这就存在如何挑选出对因变量有显著影响的自变量的问题。
- 为此,人们提出了一些方法,包括:
- 前进法
- 后退法
- 逐步回归法(最受推崇)
- 无论从回归方程中提出某个自变量,还是增加某个自变量,都要使用偏F检验。
- 偏F检验与t检验等价,但统计意义更为明了,并且容易推广到多个自变量的显著性检验。
1. 前进法
- 前进法的思想是变量由少变多,每次增加一个,直至没有可引入的变量为止。
- 具体做法是:
- 首先将全部m个自变量分别对因变量y建立一元线性回归方程,并分别计算m个一元线性回归方程的m个回归系数的F检验。
- 接下来因变量y分别与
建立二院线性回归方程,对m-1个回归方程中的
的回归系数进行F检验选择F值最大的引入回归方程。
- 依上述方法重复执行,直到所有未被引入方程的自变量的F值均小于
为止,得到的回归方程就是最终确定的方程。
- 每步检验中的临界值
与自变量数目p有关,在软件计算时,实际使用显著性P值做检验。
-
以2016年31个省市自治区地区生产总值和固定资产投资数据为例:
- 用前进算法做变量选择,取显著性水平
![]()
- 从结果中可以看出,前进法一次引入了
,最优回归模型为:
- 复决定系数
- 调整后的
- 全模型复决定系数
- 全模型调整后复决定系数
2. 后退法
-
后退法与前进法相反,首先用全部m个变量建立一个回归方程,然后在这m个变量中选择一个最不重要的变量,将它从方程中剔除。
- 可以看出最优子模型为模型6,回归方程为:
![]()
- 复决定系数
![]()
- 调整的复决定系数
![]()
- 全模型复决定系数
![]()
- 前进法和后退法都有明显的不足:
- 前进法有可能不能反映引进新自变量后的变化情况,因为某个自变量开始可能是显著的,当引入其它自变量后就变得不显著,但也没有机会剔除,一旦引入就是终身制。
- 后退法的不足是,一开始把全部自变量引入回归方程,这样计算量很大。一旦某个自变量被剔除,就再也没有机会进入回归方程。
- 如果自变量
完全独立,那么在取
时,回归方程应该是相同的,但是实际中很难碰到自变量间真正无关的情况。
3. 逐步回归法
- 逐步回归法的基本思想是有进有出,具体做法是:
- 将变量一个一个地引入,
- 每引入一个自变量后,对已选入的变量要进行逐个检验,
- 当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。
- 引入一个变量或从回归方程中提出一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包括显著的变量。
- 这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著的自变量从回归方程中剔除为止。
- 这样就弥补了前进法和后进法各自的缺陷,保证了最后所得的回归子集是最优回归子集。
- 在逐步回归法中需要注意的问题是引入自变量和剔除自变量的显著性水平
值是不同的,要求引入自变量的显著性水平
小于自变量的显著性水平
,否则可能产生死循环。