大师兄的应用回归分析学习笔记(十二):违背基本假设的情况(五)
大师兄的应用回归分析学习笔记(十四):自变量选择与逐步回归(二)
- 在实际建立回归模型时,首先碰到的问题是如何确定回归自变量。
- 通常情况是根据所研究问题的目的,结合经济理论列出对因变量可能有影响的一些因素作为自变量。
- 如果遗漏了某些重要变量,回归方程的效果肯定不好。
- 如果考虑了过多的自变量,可能会有以下问题:
- 某些自变量可能并不重要
- 有些自变量数据的质量可能很差
- 有些自闭那辆可能和其他自变量有很大程度的重叠
- 导致影响回归方程的应用:
- 计算量增大许多
- 得到的回归方程稳定性很差
一、自变量选择对估计和预测的影响
1. 全模型和选模型
- 假设研究的某一实际问题涉及的对因变量有影响的因素共m个,由因变量y和m个自变量
构成的全回归模型为:
。
- 如果从所有可供选择的m个变量中挑选p个,由所选的p个自变量组成的选模型为:
- 如果应该选用全模型去描述实际问题,而误选了选模型,说明在建模时丢掉了一些有用的变量。
- 反之,则说明把一些不必要的自变量引进了模型。
- 为了方便,把全模型的参数向量
和
的估计记为:
- 把选模型的参数向量
和
的估计记为:
2. 自选量选择对预测的影响
- 假设全模式与选模式不同,当全模式正确而误选了选模式时,引用以下性质:
- 性质1:在
的相关系数不全为0时,选模式回归系数的最小二乘估计是全模式相应参数的有偏估计。
- 性质2:选模型的预测是有偏的。
- 性质3:选模型的参数估计有较小方差。
- 性质4:选模型的预测残差有较小的方差。
- 性质5:选模型预测的均方误差比全模型预测的方差更小。
- 性质1和性质2说明,当全模式正确,而我们舍去了一个m-p个自变量,用剩下的p个自变量去建立选模型时,参数估计值是全模型形影参数的有偏估计,用其做预测,预测值也是偏的,这是误用选模型产生的弊端。
- 性质3和性质4说明,用选模型去做预测,残差的方差比用全模型去做预测的方差小,尽管用选模型的预测是有偏的,但得到的预测残差的方差下降了。这说明尽管全模型正确,但误选选模型也是有弊有利的。
- 性质5说明即使全模型正确,但如果其中一些自闭那辆对因变量影响很小或回归系数方差过大,则丢掉这些变量之后,用选模型可以提高预测的精度。由此可见,如果模型中包含一些不必要的自变量,模型的预测精度就会下降。
- 上述结论可知,一个回归模型并不是考虑的自变量越多越好,在建立回归模型时,选择自变量的基本指导思想是少而精。
二、所有子集回归
1. 所有子集的数目
- 设在一个实际问题的回归建模中,由m个可供选择的变量
,由于每个自变量都有入选和不入选两种选择,因此这些自变量的所有可能的回归方程就有
个。
- -1刨去了只包含常数项的情况。
2. 关于自变量选择的几个准则
- 从数据与模型你和优劣的角度出发,认为残差平方和SSE最小的回归方程就是最好的,还用复相关系数R来衡量回归你和的好坏,但这两种方法都有明显不足:
- 在残差平方和模式中(
),当再增加一个新的自变量
时,相应的残差平方和记为
。根据最小二乘估计的原理,增加自变量时残差平方和将减少,减少自变量时残差平方和将增加,因此有
。
- 又记他们的复决定系数
,由于SST是因变量的利差平方和,与自变量无关,因而
,即当自变量子集扩大时,残差平方和随之减小,而复决定系数
随之增大。
- 因此,如果按残差平方和越小越好的原则来选择自变量子集,或者按复决定系数越大越好的原则,则毫无疑问选的变量越多越好。
- 这样由于变量的多重共线性,给变量的回归系数估计值带来不稳定性。
- 加上变量的测量误差累计和参数数目增加,将使估计值的误差增大。
- 如此构造的回归模型稳定性差,为增大负相关系数R而付出了模型参数估计稳定性差的代价。
- 从不同角度有以下常用准则
准则一:自由度调整复决定系数达到最大
- 已知当给模型增加自变量时,复决定系数也随之逐步增大,然后复决定系数增大的代价是残差自由度的减少,因为残差自由度等于样本个数与自变量个数之差。
- 自由度小意味着估计和预测的可靠性低,这表示当一个回归方程涉及的自变量很多时,回归模型的拟合从表面上看是良好的,而区间预测和区间估计的幅度却变大,以至于失去实际意义。
- 为了克服样本决定系数的这一缺点,需要设法对
进行适当的修正,使只有加入有意义的变量时,经过修正的样本决定系数才会增加,这就是自由度调整复决定系数。
- 设
为调整的复决定系数,n为样本量,p为自变量的个数,则
- 显然有
,
随着自变量的增加并不一定增大。
- 尽管
随着变量的增加而减少,但系数
起了折扣的作用,当所增加的自变量对回归的贡献很小时,
反而可能减少。
- 自由度调整复决定系数
越大,所对应的回归方程越好,所有回归子集中对应的回归方程中
最大的就是最优方程。
- 从另一个角度考虑回归的拟合效果,回归误差项方差
的无偏估计为:
- 无偏估计中增加了惩罚因子n-p-1,
实际上就是用自由度n-p-1做平均的平均残差平方和。
- 平均残差平方和
和复决定系数
是等价的:
- 由于SST是与回归无关的固定值,所以是等价的。
准则二:AIC与BIC准则
- AIC准则是日本统计学家赤池于1974年根据最大似然估计原理提出的一种模型准则,称为赤池信息量准则(Akaike information criterion, AIC)。
- AIC准则即可以用来做回归方程自变量的选择,也可以用于时间序列分析中自回归模型的定阶。
- 对一般情况,设模型的似然函数为
,
的维数为p,x为随机样本
,则AIC定义为:
- 其中
为
的最大似然估计
- p为未知参数的个数
- 右边第一项是似然函数的对数乘以-2,
- 右边第二项惩罚因子是未知参数个数的2倍。
- 已知函数悦达的估计量越好,因此AIG达到最小的模型是最优模型。
- 把AIC用于回归模型,假定回归模型的随机误差项
服从正态分布
- 在这个正态假定下,回归参数的最大似然估计为:
- 将
代入得:
- 这里似然函数中的未知参数个数为p+2,略去与p无关的常数,得回归模型的AIC公式为:
- 在回归分析的建模过程中,对每一个回归子集计算AIC,其中AIC最小者所对应的模型是最优回归模型。
- 赤池于1976年对AIC准则进行了改进,而Schwartz在1978年根据贝叶斯理论也得出同样的判别准则,称为BIC准则(Bayesian information criterion),也称为SBC准则(Schwartz's Bayesian criterion)。
- BIC加大了对自变量数目的惩罚力度,是以令BIC达到极小
准测三:
统计量达到最小
- 1963年Mallows从预测的角度提出了一个可以用来选择自变量的统计量,也就是
统计量。
-
统计量根据原理:即使全模型正确,也有可能选模型有更小的预测误差。
- 考虑在n个样本点上用选模型式做回归预测,预测值与期望值的相对偏差平方和为:
- 可以证明,
的期望值是
- 略去无关常数2,构造出
- 其中
为全模型中
的无偏估计
- 得到
准则:选择
最小的自变量子集,这个自变量子集对应的回归方程就是最优回归方程。