多重共线性三类诊断方法及六大处理办法(附案例教程)

文章来源:SPSSAU公众号

多重共线性三类诊断方法及六大处理办法

多重共线性是指模型中解释变量间存在相关关系。本文首先总结了多重共线性的检验方法,然后探讨了多重共线性常用的处理办法,并结合实际案例演示了方法的具体应用。

一、多重共线性含义

多元线性回归模型的经典假定之一是解释变量之间不存在线性关系,而多重共线性是多元回归中最常出现的问题,指模型解释变量间存在线性相关关系。多重共线性必存在于多元回归中,因此弱的相关性对结果的影响不大,但是强的多重共线性会降低估计精确性、稳定性和显著性,继而估计参数无法正确判断解释变量的边际影响,即无法解释客观实际现象的含义。

  • 多重共线性数学描述:对于多元线性回归模型

其基本假设之一是自变量X之间是相互独立的,如果某两个或者多个自变量之间出现相关性,则称为多重共线性。即如果存在不全为0的C,使得

则称自变量X之间存在多重共线性。

二、多重共线性诊断方法

判断多重共线性的方法有很多种:

  • 一是当直观地发现回归模型的拟合优度很大、F检验显著,但是不显著的回归系数t检验较多,可以初步怀疑自变量间是否存在多重共线性;
  • 二是通过计算自变量间的相关系数来判断;
  • 三是可以选择较为通用的指标,如方差膨胀因子VIF值、容忍度值来直观判断。

下面我们通过知网的一个案例进行演示讲解,案例说明如下:

范圣岗,奚书静. 多元线性回归模型中处理多重共线性方法对比——以人口迁移冲击教育资源模型为例[J].

将数据整理好上传至SPSSSAU系统进行多重共线性诊断及后续处理分析。

1、经验方法

当直观地发现回归模型的拟合优度R方值很大、F检验显著,但很多自变量的t检验不显著,或模型的经济意义不合理,此时可初步认为变量间存在多重共线性问题。

如下表为进行多元线性回归分析结果:

按经验法判断上述回归模型结果,R方=0.970很大,F检验显著,但变量t检验并不显著即认为变量间存在多重共线性问题。同时SPSSAU线性回归结果会直接给出VIF值及容忍度诊断结果,也提示多重共线性问题存在。

2、简单相关系数检验法

如果两个自变量之间相关系数较大且接近1,则可认为回归模型中存在多重共线性问题。

相关系数检验法可作为初步判断共线性的一种方法。

SPSSAU【进阶方法】模块中提供单独方法进行【共线性分析】,分析前可选择“共线性判断标准”,默认为0.6,操作如下图:

SPSSAU【共线性分析】结果会输出Pearson相关系数、VIF值及容忍度值。

从相关分析结果来看,各自变量之间相关系数都较大且接近于1(均在0.7以上且显著),说明各自变量之间相关性很强,可以初步认为自变量之间存在多重共线性问题。

3、VIF值与容忍度

VIF值是方差膨胀因子,可以衡量多重共线性的严重程度。一般认为VIF值大于10,则存在多重共线性问题(严格大于5)。

第i个回归系数的方差膨胀因子可表示为:

其中Ri方表示将第i个变量作为因变量与其余自变量拟合回归方程所得到的决定系数,VIF值越大说明该变量与其余自变量具有较强的相关关系。

另外,有些文献也以容忍度作为判断共线性的指标,容忍度为VIF值的倒数,容忍度大于0.1则说明没有共线性(严格是大于0.2)。研究时二者选其一即可,一般描述VIF值。

从分析结果可以看出,除变量“教师高级职称占比”外,其余变量的VIF值均大于10,可以认为存在严重的多重共线性问题。

三、多重共线性处理办法

当模型中出现多重共线性问题时,常用的解决办法有以下6种:

(1)手动剔除变量

(2)逐步回归

(3)岭回归

(4)主成分回归

(5)偏最小二乘回归

(6)增大样本量

接下来,基于本案例分别进行演示说明。

1、手动剔除变量

找出引起多重共线性的解释变量,然后把它从模型中剔除出去,这是解决多重共线性最简单直接的方法。操作方法:逐步剔除VIF值高的变量

  • 第一步:剔除当前模型中VIF值最大的变量;
  • 第二步:重新计算剩余变量的VIF,再次剔除VIF最高的变量;
  • 循环:重复上述步骤,直至所有变量VIF均≤10(更严格阈值为5)。

在本案例中,首先将VIF值最大的自变量“人均数学设备/台”进行剔除,再次分析,得到VIF结果如下:

从上表可以看出,在手动剔除了VIF值最大变量后,剩下五个变量的VIF值均呈现下降趋势。接下来继续剔除当前VIF值最大的变量“人均教学面积/m²”,得到结果如下:

此时可以看到,剩余4个变量的VIF值均小于10,此时多元回归模型公式为:

一本上线率=-0.039 + 1.013*师生比 + 0.010*教师高级职称占比 + 0.033*人均教育投入/千-0.000*人均图书/册,各系数均与正常逻辑相符。且模型R方值为0.969,表明方程有较好的显著性及对模型很好的解释性。

2、逐步回归

逐步回归法是在模型中逐个引入解释变量,根据模型经济意义的检验、统计意义的检验以及R方的变化来判断新引入的变量是否引起了共线性。如果新引入的变量使得模型经济意义检验和统计意义检验都能通过,且又能提高模型的R方,则应引入;如果R方无显著变化,或者模型的经济意义检验通不过,或者变量的显著性检验没有通过,则无需引入。

SPSSAU【逐步回归】共提供3种自变量进入回归模型的方法,分别是逐步法、向前法、向后法,操作如下图:

(1)逐步法

逐步法是同时结合向前选择和向后剔除的动态算法。模型在每次加入新变量后,会再次检查已进入模型的变量是否仍显著,若不显著则被剔除。它能在“加入—剔除”之间不断迭代,寻找一个相对最优的变量组合。

(2)向前法

向前法从一个没有自变量的空模型开始,逐一检验所有备选变量,每次选择对模型提升最大且显著的变量加入模型,直到没有变量满足进入标准为止。它属于逐步回归中最简单、最“保守”的选变量方式。

(3)向后法

向后法从包含所有自变量的完整模型开始,逐步剔除不显著或贡献最小的变量。每一步删除一个最不合格的变量,直到剩下的变量都满足留在模型的统计标准。适用于初始变量较多、样本量足够大的情境。

SPSSAU使用逐步法进行逐步回归得到分析结果如下:

从上表可以看出,使用逐步回归进行分析,最终只保留了“师生比”和“人均教育投入/千”两个变量在模型中,VIF值均小于5。

【提示】:需要注意的是,无论是手动剔除变量还是使用逐步回归法,虽然能有效降低共线性,但都可能剔除具有理论重要性的变量,从而导致模型偏离其最初的研究意图。

3、岭回归

岭回归估计法通过添加惩罚项来修正残差平方和,通过牺牲系数的一点无偏性以获得比无偏时更高的精度,使得残差平方和小,又避免系数过大。

岭回归分析步骤共分为两步:结合岭迹图寻找最佳K值;输入K值进行回归建模。SPSSAU操作如下:

(1)结合岭迹图寻找最佳K值

SPSSAU岭回归分析输出岭迹图如下:

岭回归时k值的判断非常重要,通常可查看岭迹图和VIF指标进行判断。岭迹图出现平稳那一刻的k值即为最佳值,岭迹图的判断带有较强主观性。K值的选择原则是各个自变量的标准化回归系数趋于稳定时的最小K值。

SPSSAU还会输出岭迹图中间过程值(标准化回归系数值及VIF值),部分结果示例如下:

SPSSAU提供K值智能建议,结合VIF<=10和K值越小越好这两个标准进行评判,建议可取K值为0.02。

(2)输入K=0,02,再次进行岭回归分析

SPSSAU输出岭回归分析结果如下:

从岭回归分析结果可以看出,VIF值均小于10,解决了多重共线性问题。

【提示】:岭回归分析方法虽然能够减少参数估计量的方差,使回归结果更符合实际,但如果原模型的经济意义不合理,即使使用岭回归法也不一定使修正后的模型能通过经济意义的检验。因此在实际应用中并不是所有的共线性都可以用岭回归法来解决。

4、主成分回归

主成分回归是运用降维的思想,在尽量减少信息损失的情况下,将多个指标通过正交旋转转化为几个综合指标的分析方法。其基本原理是:利用主成分分析将解释变量转换成若干个主成分,这些主成分从不同侧面反映了解释变量的综合影响。因此,可以将解释变量对这些主成分进行回归,再根据主成分与解释变量之间的关系,求得原回归模型的估计方程。

(1)计算主成分得分

使用SPSSAU进行主成分分析,勾选【成分得分】,操作如下图:

由于本案例各指标呈高度相关性,此处较为特殊的是仅提取一个累计方差解释率为86.76%的主成分,下表为各指标对Z的载荷系数表格:
主成分得分表达式:PC1 = 0.885*Z1 + 0.890*Z2 + 0.938*Z3 + 0.984*Z4 + 0.923*Z5 + 0.964*Z6其中,Z1, Z2, ..., Z6 分别是原始变量的标准化变量,SPSSAU将自动保存主成分得分,无需手动计算。

(2)主成分得分与因变量进行线性回归

模型公式为:Y=0.064 + 0.005*PC1

(3)将主成分回归系数转换回原始变量尺度

将PC1代入上述回归模型公式得:

Y = 0.064 + 0.004425*Z1 + 0.00445*Z2 + 0.00469*Z3 + 0.00492*Z4 + 0.004615*Z5 + 0.00482*Z6

若想要的是关于原始变量的回归方程。则需要将标准化变量还原为原始变量。标准化变量 Z=(X-μ)/σ,其中μ是X的均值,σ是标准差。代入公式进行转换即可,在此不再赘述。

5、偏最小二乘回归

PLS回归(偏最小二乘回归),是一种可以解决共线性问题、多个因变量Y同时分析、以及处理小样本时影响关系研究的一种多元统计方法。

从原理上,PLS回归集合三种研究方法,分别是多元线性回归、典型相关分析和主成分分析,PLS回归是此三种方法的集合运用,多元线性回归用于研究影响关系,典型相关分析用于研究多个X和多个Y之间的关系,主成分分析用于对多个X或者多个Y进行信息浓缩。

SPSSAU进行PLS回归操作示例如下:

6、增大样本量

在建立回归模型时,如果变量的样本数据太少,很容易产生多重共线性问题。所以可以通过增大样本量的方法,克服多重共线性。但是在实际研究中是不现实的,因为我们没有办法确定增加什么多少样本才能克服多重共线性,也有可能在增加了样本量的同时,产生了一些新的问题,导致模型的拟合变差,没有达到我们所期望的效果。

参考文献:

[1]刘芳,董奋义. 计量经济学中多重共线性的诊断及处理方法研究[J]. 中原工学院学报,2020,31(01):44-48+55.

[2]范圣岗,奚书静. 多元线性回归模型中处理多重共线性方法对比——以人口迁移冲击教育资源模型为例[J]. 科技风,2020,No.427(23):157+159.

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容