平时有不少学生私信我说,我的多元回归模型中参数显著性的个数为什么这么少,怎么办才能提高参数的显著性,虽然我常说参数的显著性并不能刻意的强求,并且只说明在你所选择的样本下或者时间段内不存在显著性,但是应该知道在构建多元回归时有哪些因素会影响显著性,是怎么影响的,应该如何来修正。
1.多重共线检验
首先在构建完模型之后,第一个需要检验的是,你所选择的变量之间是否存在多重共线,啥意思呢,就是说一个变量是否可以由你所选的变量中的一个或多个来代替,如果可以,就说明存在多重共线,变量间是相关的,此时从偏回归系数意义上看,当a和b存在相关时,无法保持a不变去单独考虑b对y的影响,只要记住一点:方程是无法估计的或者方程的显著性是不准确的
(1)简单相关系数
判断多重共线是否存在一个简单的方法就是,如果方程的F统计量显著,但是变量的t统计量很多不显著,说明可能存在多重共线性。更一般的方法可以看一下变量间的简单相关系数,如果大于0.8,可认为存在严重的多重共线性,但是如果变量间存在多重共线性,那么就一定说明变量间的简单相关系数高?并不一定!有时候较低的相关系数也可能存在多重共线,因此并不能完全依赖简单相关系数判断多重共线性。
(2)方差膨胀因子(VIF)
方差膨胀因子是个啥东西?自己百度哈哈,方差膨胀因子越大,说明解释变量之间的多重共线越严重(啥是解释变量?)自变量!方差膨胀因子越接近1,多重共线性越弱,一般当VIF大于10时,就说明自变量和其余自变量之间存在严重多重共线性。这个操作,在SPSS中会直接输出VIF值,但是在Eviews中暂时我还没有找到。
2、如何修正
(1)剔除变量(很简单,不解释)
但是需要考虑的是,如果删除了重要变量,可能引起模型的设定误差(啥叫设定误差,简单理解可能存在遗漏变量偏差从而导致估计出现误差)
(2)对变量进行差分
一般来讲,差分后的序列会显著降低多重共线性的发生概率,但是差分会丢掉很多信息,同时误差项可能存在序列相关,因此也要注意。
(3)变量变换
比如计算相对指标、将名义数据改为实际数据、对数化处理,但是效果可能并不一定好。
(4)逐步回归
这是一个比较常用的方法,步骤就是,先用被解释变量对每一个解释变量进行回归,按照贡献大小进行排序,然后以对被解释变量贡献最大的解释变量所对应的方程为基础,将剩余解释变量一个一个引入方程中。
如果引入新解释变量后,方程整体的R方和F检验均得到改进,并且该变量也是显著的,在模型中就保留这个变量。如果不是就删除掉,这里面也存在两种情况,一种是引入后未改进R方和F统计量,对其他系数的显著性也没影响,这个变量就是多余的,另外一种是引入后虽然未能改进R方和F统计量,但是显著影响了其他的变量,变量本身也不显著,说明该变量是多重共线变量。SPSS软件中可以直接设定逐步回归,但是Eviews中需要手动设定。