大师兄的应用回归分析学习笔记(九):违背基本假设的情况(二)

大师兄的应用回归分析学习笔记(八):违背基本假设的情况(一)
大师兄的应用回归分析学习笔记(十):违背基本假设的情况(三)

三、多元加权最小二乘估计

1. 多元加权最小二乘法
  • 对于一般的多元线性回归模型:y_i = \beta_0+\beta_1x_{i1}+\beta_2x_{i2}+...+\beta_px_{ip}+\epsilon_i,i=1,2,...,n
  • 当误差项\epsilon_i存在异方差性时,加权离差平方和为:Q_w = \sum^n_{i=1}w_i(y_i - \beta_0 - \beta_1x_{i1}-\beta_2x_{i2}-...-\beta_px_{ip})^2
  • 式中,w_i为给定的第i个观测值的权数。
  • 加权最小二乘就是寻找参数\beta_0,\beta_1,\beta_2,...,\beta_p的估计值\hat\beta_0,\hat\beta_1,\hat\beta_2,...,\hat\beta_p,使Q达到极小。
  • 加权最小二乘估计的矩阵表达为:\hat\beta_w=(X'WX)^{-1}X'Wy
2. 权函数的确定方法
  • 多元线性回归有多个自变量,通常取权函数W为某个自变量x_j(j=1,2,...,p)的幂函数,即W=x^m_j
  • 可以通过计算每个自变量x_j与普通残差的等级相关系数,选取等级相关系数最大的自变量构造函数。

  • 从结果中可以看出,残差绝对值与自变量X_1的相关系数为r_{e1} = 0.163,与自变量x_2的相关系数为r_{e2}=0.903,因而选择x_2为构造权函数。
  • 用Weight Estimate估计幂指数m,得m的最优值为m=2。


  • 根据以上结果,加权最小二乘的R^2=0.974,F值=223.919,加权最小二乘回归方程为:\hat y = =350.350 + 2.108x_1 + 0.503x_2

四、自相关性问题及其处理

  • 无论是一元还是多元回归模型,总是假定其随机误差项是不相关的,即cov(\epsilon_i,\epsilon_j)=0,i\neq j
  • 如果一个回归模型不满足cov(\epsilon_i,\epsilon_j)=0,i\neq j,则称随机误差项之间存在自相关现象。
  • 这里的自相关现象指的不是两个或两个以上的变量之间的相关关系,而是指一个变量前后期数值之间的相关关系。
1. 自相关性产生的背景和原因
  • 在实际问题中,经常遇到时间序列出现正的序相关的情形,产生序列自相关的背景及其原因通常有以下几个方面:
  • 遗漏关键变量时会产生序列的自相关性。
  • 经济变量的滞后性会给序列带来自相关性。
  • 采用错误的回归函数形式也可能引起自相关性。
  • 蛛网现象(cobweb phenomenon)可能带来自相关性。蛛网现象是微观经济学中研究商品市场运行规律的名词,表示某种商品的供给量因受前一期价格影响而表现出来的某种规律性。
  • 因对数据加工整理而导致误差项之间产生自相关性。
  • 自相关性问题在时序资料的建模中会经常碰到,在横截面样本数据中有时也会存在。
  • 大多数经济时间序列由于受经济波动规律的作用,一般随着时间的推移有一种向下或向上变动的趋势。
  • 所以,随机误差项\epsilon_t一般表现为正自相关情形,负相关的情形也会出现,但并不多见。
2. 自相关性带来的问题
  • 当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果:
  • 参数的估计值不再具有最小方差线性无偏性。
  • 均方误差(MSE)可能严重低估误差项的方差。
  • 容易导致对t值评价过高,常用的F检验和t检验失效。如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论。
  • 当存在序列相关时,\hat\beta仍然是\beta的无偏估计量,但在任一特定的样本中,\hat\beta可能严重歪曲\beta的真实情况,即最小二乘估计量对抽样波动非常敏感。
  • 如果不加处理地运用普通最小二乘法估计模型参数,那么用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释。
3. 自相关性的诊断
3.1 图示检验法
  • 图示检验法是一种直观的诊断方法,他是对给定的回归模型直接用普通最小二乘法估计参数,求出残差项e_t作为随机项\epsilon_t的真实值的估计值,再描绘e_t的散点图,根据e_t的相关性来判断随机项\epsilon_t的序列相关性。
  • 残差e_t的散点图通常有两种绘制方式:
  • (1) 绘制e_t,e_{t-1}的散点图。用(e_t,e_{t-1})(t=2,3,...,n)作为散布点绘图。
  • 如果大部分点落在第1,3象限,表明随机扰动项\epsilon_t存在正的序列相关。
  • 如果大部分点落在第2,4,象限,表明随机扰动项\epsilon_t存在负的序列相关。
  • (2) 按照时间顺序绘制回归残差项e_t的图形。
  • 如果e_t(t=1,2,...,n)随着t的变化逐次有规律地呈现锯齿形或循环性形状的变化,就可断言e_t存在相关,表明\epsilon_t存在序列相关。
  • 如果e_t随着t的变化逐次变化并不断地改变符号,表明随机扰动项\epsilon_t存在负的序列相关,称为蜘蛛网现象。
  • 如果e_t随着t的变化逐次变化并不频繁地改变符号,而是几个正的e_t后面跟着几个负的,表明随机扰动项\epsilon_t存在正的序列相关。
3.2 自相关系数法
  • 误差序列\epsilon_1,\epsilon_2,...,\epsilon_n的自相关系数定义为:\rho=\frac{\sum^n_{t=2}\epsilon_t\epsilon_{t-1}}{\sqrt{\sum^n_{t=2}\epsilon_t^2}\sqrt{\sum^n_{t=2}\epsilon_{t-1}^2}}
  • 自相关系数\rho的取值范围是[-1,1];
  • \rho接近1时,表明误差序列存在正相关;
  • \rho接近-1时,表明误差序列存在负相关;
  • 在实际应用中,误差序列\epsilon_1,\epsilon_2,...,\epsilon_n的真实值是未知的,需要用其估计值e_t代替:\hat\rho=\frac{\sum^n_{t=2}e_te_{t-1}}{\sqrt{\sum^n_{t=2}e_t^2}\sqrt{\sum^n_{t=2}e_{t-1}^2}}
  • \hat\rho作为自相关系数\rho的估计值与样本量相关,需要做统计显著性检验才能确定自相关性是否存在。
  • 通常采用DW检验代替对\hat\rho的检验。

3.3 DW检验

  • DW检验是J.Durbin和G.S.Watson于1951年提出的适用于小样本的一种检验方法。
  • DW检验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。
  • 随机扰动项的一阶自回归形式为:\epsilon_t=\rho\epsilon_{t-1}+u_t
  • 为了检验序列的相关性,构造的假设是:H_0:\rho=0
  • 为了检验上述假设,构造DW统计量,首先要求计算出回归估计式的残差e_t,定义DW统计两位:DW = \frac{\sum^n_{t=2}(e_t-e_{t-2})^2}{\sum^n_{t=2}e^2_t}
  • 式中e_t = y_t - \hat y_t(t=1,2,...,n)
  • 通过计算最终可得DW \approx 2(1-\hat\rho),因而DW值与\hat\rho的对应关系如下:
\hat\rho DW 误差项的自相关性
-1 4 完全负自相关
(-1,0) (2,4) 负自相关
0 2 无自相关
(0,1) (0,2) 正自相关
1 0 完全正自相关
  • 由上述讨论可知DW的取值范围 0\leq DW \leq 4
  • 根据样本量n和解释变量的数目k(这里包括常数项)查DW分布表,得临界值d_Ld_U,然后依下列准则考察计算得到的DW值,决定模型的自相关状态。
- -
0\leq DW \leq d_L 误差项\epsilon_1,\epsilon_2,...,\epsilon_n间存在正自相关
d_L<DW\leq d_U 不能判断是否有自相关
d_U<DW<4-d_U 误差项\epsilon_1,\epsilon_2,...,\epsilon_n间无自相关
4-d_U\leq DW<4-d_L 不能判断是否有自相关
4-d_L\leq DW \leq 4 误差项\epsilon_1,\epsilon_2,...,\epsilon_n间存在负自相关
  • DW检验尽管有着广泛的应用,也有明显的缺点和局限性:
  • DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断,这时,只有增大样本量或选取其他方法。
  • DW统计量的上、下界表要求n>15,这是因为样本如果再小,利用残差就很难对自相关性的存在做出比较正确的诊断。
  • DW检验不适合随机项具有高阶序列相关的情形。
4. 自相关问题的处理方法
  • 当一个回归模型存在序列相关性时,首先要查明序列相关性产生的原因。
  • 如果是回归模型选用不当,则应改用适当的回归模型;
  • 如果是缺少重要的自变量,则应增加自变量;
  • 如果以上两种方法都不能消除序列相关性,则需要采用迭代法、差分法等方法处理。
4.1 迭代法
  • 以一元线性回归模型为例,设一元线性回归模型的误差项存在一阶自相关。
    y_t = \beta_0 + \beta_1x_t+\epsilon_t
    \epsilon_t = \rho\epsilon_{t-1}+u_1
  • 公式表明误差项\epsilon_t存在一阶自相关。

\begin{cases} E(u_t)=0,t=1,2,...,n\\ cov(u_t,u_s)=\begin{cases} \sigma^2,t=s\\ 0,t\neq s \end{cases}t,s = 1,2,...,n \end{cases}

  • 表示u_t满足关于随机扰动项的基本假设。
  • 根据回归模型有:y_{t-1} = \beta_0 + \beta_1x_{t-1}+\epsilon_{t-1}
  • 将公式两端乘以\rho,用上式减去乘以\rho的式,则有:(y_t-\rho y_{t-1}) = (\beta_0-\rho \beta_0)+\beta_1(x_t-\rho x_{t-1})+(\epsilon_t-\rho\epsilon_{t-1})
  • 令:
    y'_t = y_t - \rho y_{t-1}
    x'_t = x_t - \rho x_{t-1}
    \beta'_0 = \beta_0(1-\rho),\beta'_1 = \beta_1
  • 得:y'_t = \beta'_0 + \beta'_1x'_t + u_t
  • 此式由独立的随机误差项,满足线性回归模型的基本假设,用普通最小二乘法估计的参数估计量具有通常的优良性。
  • 由于\rho的自相关系数\rho是未知的,需要对\rho做估计。
  • 根据式\hat\rho \approx 1-\frac{1}{2}DW,计算出\rho的估计值\hat\rho后,计算变换因变量y'_t与变换自变量x'_t
  • 然后做普通最小二乘回归,如果误差项确实是一阶自相关模型,通过以上变换已经消除了自相关,迭代法到此结束。
  • 在实际问题中,有时误差项并不是简单的一阶自相关,而是更复杂的自相关形式,误差项u_t可能仍然存在自相关,这就需要进一步对u_t做DW检验,以判断u_t是否存在自相关。
  • 如果检验表明误差项u_t不存在自相关,迭代法到此结束。
  • 如果检验表明误差项u_t存在自相关,那么对回归模型重复用迭代法,直至最终消除误差项的自相关。
4.2 差分法
  • 差分法就是用增量数据代替原来的样本数据,将原来的回归模型变为差分形式的模型。
  • 一阶差分法通常适用于原模型存在较高程度的一阶自相关情况。
  • 在迭代法中,当\rho=1时,得(y_t-y_{t-1}) = \beta_1(x_t-x_{t-1}) + (\epsilon_t - \epsilon_{t-1})
  • \Delta y_t = \beta_1\Delta x_t + u_t
  • 式中不存在序列的自相关,是以差分数据\Delta y_t\Delta x_t为样本的回归方程。
  • 对于不带常数项的回归方程用最小二乘法,是回归直线过原点的回归方程\hat\beta_1=\frac{\sum^n_{t=2}\Delta y_t\Delta x_t}{\sum^n_{t=2}\Delta x_t^2}
  • 一阶差分法的应用条件是自相关系数\rho=1,在实际应用中,\rho接近1就采用差分法而不用迭代法,原因有二:
  • 迭代法需要用样本估计自相关系数\rho,对\rho的估计误差会影响迭代法的使用效率。
  • 差分法比迭代法简单,人们在建立时序数据的回归模型时,更习惯于用差分法。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,002评论 6 509
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,777评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,341评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,085评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,110评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,868评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,528评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,422评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,938评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,067评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,199评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,877评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,540评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,079评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,192评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,514评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,190评论 2 357

推荐阅读更多精彩内容