多元回归分析中的共线性问题
原创 2015-11-13 ccccfys spss统计分析
多重共线性:回归模型中,两个或者两个以上的自变量彼此相关时,称回归模型中存在多重共线性。
为什么多重共线性会导致一系列问题呢?试想一下,假如两个变量完全共线性,设两个变量为A,B.那么A=xB,x是常数。如果把这两个变量带入回归方程,由于一个变量完全可以用另外一个变量乘以一个常数来表示,带入两个变量,就需要给他们分配系数,怎么分配呢,显然有很多种可能,而计算机并不知道哪一种是最好的,但是在输出结果时,它会给你一种,管它是不是你想要的呢,它只关心跑完了自己的程序。现实中的共线性问题一般不会是完全共线性,但有时候共线性问题会很严重,具体有相关指标,请看下面其他内容。
多重共线性导致的问题:
1)线性关系显著(F检验显著,或者回归关系显著),大部分回归系数却不显著;
2)回归系数的符号与理论或者预期不符合。
多重共线性的识别:
1)各自变量之间显著相关(使用散点图矩阵和相关系数矩阵)
2)线性关系检验显著(F检验显著),各自变量系数却大多数不显著
3)回归系数正负号与预期相反
4)容忍度(tolerance)小于0.1或者方差扩大因子(VIF)大于10,认为存在严重共线性
多重共线性问题的处理
1)删除相关性很强的两个自变量中的一个,或者删除多个相关性很强的自变量中的几个变量;
2)提取主成分,将多个相关性很强的变量包含的信息浓缩到一个变量中;
什么时候可以不关心多重共线性问题呢?
1)模型不是用来解释现实事物之间的关系,因此不用进行系数的检验,不用考虑多重共线性问题;
2)利用回归方程在自变量样本值范围内预测因变量(注意自变量的取值只能在自变量最小值和最大值范围内)由于是进行预测,只关心结果,不考虑过程。