多重共线性(Multicollinearity)-方差膨胀

多重共线性

多重共线性是指,线性回归模型中的解释变量(多个X值之间)之间由于存在精确相关关系(例如x_{1} =2x_{2} )或高度相关关系而使模型估计失真或难以估计准确。

y=β_{0} +β_{1} x_{1} +β_{2} x_{2}+β_{3} x_{3}+……+β_{n} x_{n} (回归拟合方程)

为什么解释变量存在多重共线性会导致模型估计失真或难以估计准确???

具体原因参考图1,引自:https://zhuanlan.zhihu.com/p/355241680

图1

如何判断自己提供的解释变量是否存在精确相关关系或者高度相关关系,并剔除不利因素???

为了提升回归模型的准确性,需要去掉这些存在【精确相关关系或者高度相关关系】的解释变量,保留一个代表性的解释变量即可(例如去掉x_{2} ),可以开展方差膨胀因子分析,进行不利变量的筛除;

方差膨胀因子分析

即针对每个因子基于如下公式,计算VIF值

VIF_{i}  = \frac{1}{1-R_{i}^2 }  其中R_{i}^2为解释变量(待筛选因子)之间回归的决定系数(可决系数),通常因子与因子之间相关性越高,决定系数越高,VIF值也越高,当一组因子(x_{1} ……x_{n} )中有多个因子的VIF值大于10(这时的决定系数为0.9,表明两个因子之间存在高度相关关系),则剔除掉VIF值最大的因子,重新对所有因子计算VIF值,每次剔除1个因子,直至剩余所有因子的VIF值均小于10,即可。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容