大师兄的应用回归分析学习笔记(十七):多重共线性的情形及其处理(二)
大师兄的应用回归分析学习笔记(十九):岭回归(一)
四、消除多重共线性的方法
1. 剔除一些不重要的解释变量
- 通常在经济问题的建模中,由于认知水平的局限,容易考虑过多的自变量。
- 当涉及的自变量较多时,大多数回归方程都受到多重共线性的影响。
- 这时最常用的办法是:
- 首先做自变量的选元,舍去一些自变量。
- 当回归方程中的全部自变量都通过显著性检验后,若回归方程中仍然存在严重的多重共线性,有几个变量的方差扩大因子大于10,我们可把方差扩大因子最大者所应对的自变量首先剔除,再重新建立回归方程。
- 如果仍然存在严重的多重共线性,则再继续剔除方差扩大因子最大者所对应的自变量,直到回归方程中不再存在严重的多重共线性为止。
- 有时根据所研究的问题的需要,也可以首先剔除方差扩大因子最大者所对应的自变量,依次剔除,直到消除了多重共线性为止,然后再做自变量的选元。
- 或者根据所研究问题的经济意义,决定保留或剔除某自变量。
- 总之,在选择回归模型时,可以将回归系数的显著性检验、方差扩大因子VIF的数值以及自变量的经济含义结合起来考虑,以引进或剔除变量。
2. 增大样本量
- 建立一个实际经济问题的回归模型,如果所收集的样本数据太少,也容易产生多重共线性。
- 譬如,我们的问题涉及两个自变量
,假设
都已经中心化。
- 由式:
,
为
和
的相关系数,
![]()
- 可以看出,若样本量n增大,
和
都会增大,两个回归系数估计值的方差均可减少,从而减轻多重共线性对回归方程的影响。
- 在实践中,当所选的变量个数接近样本量n时,自变量间容易产生共线性,所以要尽可能使样本量n远大于自变量个数p。
- 增大样本量的方法在有些经济问题中是不现实的,因为在经济问题中,许多自变量是不受控制的,或由于种种原因不可能在得到一些新的样本数据。
- 在有些情况下,虽然可以增加一些样本数据,但当自变量个数较多时,我们往往难以确定增加什么样的数据才能克服多重共线性。
- 有时,增加了样本数据,但可能新数据距离原样本数据的平均值较大,会产生一些新的问题,使模型拟合变差,没有收到增加样本数据期望的效果。
3. 回归系数的有偏估计
- 消除多重共线性对回归模型的影响是近几十年来统计学家关注的热点课题之一。
- 除了以上方法,统计学家还致力于改进古典的最小二乘法,提出以采用有偏估计为代价来提高估计量稳定性的方法,如岭回归法、主成份法、偏最小二乘法等。