大师兄的应用回归分析学习笔记(八):违背基本假设的情况(一)
大师兄的应用回归分析学习笔记(十):违背基本假设的情况(三)
三、多元加权最小二乘估计
1. 多元加权最小二乘法
- 对于一般的多元线性回归模型:
- 当误差项
存在异方差性时,加权离差平方和为:
- 式中,
为给定的第
个观测值的权数。
- 加权最小二乘就是寻找参数
的估计值
,使
达到极小。
- 加权最小二乘估计的矩阵表达为:
2. 权函数的确定方法
- 多元线性回归有多个自变量,通常取权函数W为某个自变量
的幂函数,即
。
- 可以通过计算每个自变量
与普通残差的等级相关系数,选取等级相关系数最大的自变量构造函数。
- 从结果中可以看出,残差绝对值与自变量
的相关系数为
,与自变量
的相关系数为
,因而选择
为构造权函数。
-
用Weight Estimate估计幂指数m,得m的最优值为m=2。
- 根据以上结果,加权最小二乘的
,加权最小二乘回归方程为:
四、自相关性问题及其处理
- 无论是一元还是多元回归模型,总是假定其随机误差项是不相关的,即
。
- 如果一个回归模型不满足
,则称随机误差项之间存在自相关现象。
- 这里的自相关现象指的不是两个或两个以上的变量之间的相关关系,而是指一个变量前后期数值之间的相关关系。
1. 自相关性产生的背景和原因
- 在实际问题中,经常遇到时间序列出现正的序相关的情形,产生序列自相关的背景及其原因通常有以下几个方面:
- 遗漏关键变量时会产生序列的自相关性。
- 经济变量的滞后性会给序列带来自相关性。
- 采用错误的回归函数形式也可能引起自相关性。
- 蛛网现象(cobweb phenomenon)可能带来自相关性。蛛网现象是微观经济学中研究商品市场运行规律的名词,表示某种商品的供给量因受前一期价格影响而表现出来的某种规律性。
- 因对数据加工整理而导致误差项之间产生自相关性。
- 自相关性问题在时序资料的建模中会经常碰到,在横截面样本数据中有时也会存在。
- 大多数经济时间序列由于受经济波动规律的作用,一般随着时间的推移有一种向下或向上变动的趋势。
- 所以,随机误差项
一般表现为正自相关情形,负相关的情形也会出现,但并不多见。
2. 自相关性带来的问题
- 当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果:
- 参数的估计值不再具有最小方差线性无偏性。
- 均方误差(MSE)可能严重低估误差项的方差。
- 容易导致对t值评价过高,常用的F检验和t检验失效。如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论。
- 当存在序列相关时,
仍然是
的无偏估计量,但在任一特定的样本中,
可能严重歪曲
的真实情况,即最小二乘估计量对抽样波动非常敏感。
- 如果不加处理地运用普通最小二乘法估计模型参数,那么用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释。
3. 自相关性的诊断
3.1 图示检验法
- 图示检验法是一种直观的诊断方法,他是对给定的回归模型直接用普通最小二乘法估计参数,求出残差项
作为随机项
的真实值的估计值,再描绘
的散点图,根据
的相关性来判断随机项
的序列相关性。
- 残差
的散点图通常有两种绘制方式:
- (1) 绘制
的散点图。用
作为散布点绘图。
- 如果大部分点落在第1,3象限,表明随机扰动项
存在正的序列相关。
- 如果大部分点落在第2,4,象限,表明随机扰动项
存在负的序列相关。
- (2) 按照时间顺序绘制回归残差项
的图形。
- 如果
随着t的变化逐次有规律地呈现锯齿形或循环性形状的变化,就可断言
存在相关,表明
存在序列相关。
- 如果
随着t的变化逐次变化并不断地改变符号,表明随机扰动项
存在负的序列相关,称为蜘蛛网现象。
- 如果
随着t的变化逐次变化并不频繁地改变符号,而是几个正的
后面跟着几个负的,表明随机扰动项
存在正的序列相关。
3.2 自相关系数法
- 误差序列
的自相关系数定义为:
- 自相关系数
的取值范围是[-1,1];
- 当
接近1时,表明误差序列存在正相关;
- 当
接近-1时,表明误差序列存在负相关;
- 在实际应用中,误差序列
的真实值是未知的,需要用其估计值
代替:
作为自相关系数
的估计值与样本量相关,需要做统计显著性检验才能确定自相关性是否存在。
- 通常采用DW检验代替对
的检验。
3.3 DW检验
- DW检验是J.Durbin和G.S.Watson于1951年提出的适用于小样本的一种检验方法。
- DW检验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。
- 随机扰动项的一阶自回归形式为:
- 为了检验序列的相关性,构造的假设是:
- 为了检验上述假设,构造DW统计量,首先要求计算出回归估计式的残差
,定义DW统计两位:
- 式中
![]()
- 通过计算最终可得
,因而DW值与
的对应关系如下:
DW | 误差项的自相关性 | |
---|---|---|
-1 | 4 | 完全负自相关 |
(-1,0) | (2,4) | 负自相关 |
0 | 2 | 无自相关 |
(0,1) | (0,2) | 正自相关 |
1 | 0 | 完全正自相关 |
- 由上述讨论可知DW的取值范围
。
- 根据样本量n和解释变量的数目k(这里包括常数项)查DW分布表,得临界值
和
,然后依下列准则考察计算得到的DW值,决定模型的自相关状态。
- | - |
---|---|
误差项 |
|
不能判断是否有自相关 | |
误差项 |
|
不能判断是否有自相关 | |
误差项 |
- DW检验尽管有着广泛的应用,也有明显的缺点和局限性:
- DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断,这时,只有增大样本量或选取其他方法。
- DW统计量的上、下界表要求n>15,这是因为样本如果再小,利用残差就很难对自相关性的存在做出比较正确的诊断。
- DW检验不适合随机项具有高阶序列相关的情形。
4. 自相关问题的处理方法
- 当一个回归模型存在序列相关性时,首先要查明序列相关性产生的原因。
- 如果是回归模型选用不当,则应改用适当的回归模型;
- 如果是缺少重要的自变量,则应增加自变量;
- 如果以上两种方法都不能消除序列相关性,则需要采用迭代法、差分法等方法处理。
4.1 迭代法
- 以一元线性回归模型为例,设一元线性回归模型的误差项存在一阶自相关。
- 公式表明误差项
存在一阶自相关。
- 表示
满足关于随机扰动项的基本假设。
- 根据回归模型有:
- 将公式两端乘以
,用上式减去乘以
的式,则有:
- 令:
- 得:
- 此式由独立的随机误差项,满足线性回归模型的基本假设,用普通最小二乘法估计的参数估计量具有通常的优良性。
- 由于
的自相关系数
是未知的,需要对
做估计。
- 根据式
,计算出
的估计值
后,计算变换因变量
与变换自变量
![]()
- 然后做普通最小二乘回归,如果误差项确实是一阶自相关模型,通过以上变换已经消除了自相关,迭代法到此结束。
- 在实际问题中,有时误差项并不是简单的一阶自相关,而是更复杂的自相关形式,误差项
可能仍然存在自相关,这就需要进一步对
做DW检验,以判断
是否存在自相关。
- 如果检验表明误差项
不存在自相关,迭代法到此结束。
- 如果检验表明误差项
存在自相关,那么对回归模型重复用迭代法,直至最终消除误差项的自相关。
4.2 差分法
- 差分法就是用增量数据代替原来的样本数据,将原来的回归模型变为差分形式的模型。
- 一阶差分法通常适用于原模型存在较高程度的一阶自相关情况。
- 在迭代法中,当
时,得
- 得
- 式中不存在序列的自相关,是以差分数据
和
为样本的回归方程。
- 对于不带常数项的回归方程用最小二乘法,是回归直线过原点的回归方程
。
- 一阶差分法的应用条件是自相关系数
,在实际应用中,
接近1就采用差分法而不用迭代法,原因有二:
- 迭代法需要用样本估计自相关系数
,对
的估计误差会影响迭代法的使用效率。
- 差分法比迭代法简单,人们在建立时序数据的回归模型时,更习惯于用差分法。