第14章 时间序列回归和预测导论

        时间序列数据,即某个个体在多个时间点上收集到的数据,可用来回答截面数据无法回答的定量问题,其中一类问题就是一个变量X的变化对感兴趣变量Y随时间的因果效应,另一类问题就是对未来某个变量取值的最佳预测


一、利用回归模型进行预测

        即使没有一个系数具有因果关系的回归模型也能用于预测

        从预测的角度看,模型能否提供尽可能准确的预测才是最重要的;虽然不存在完美预测,但回归模型能够提供准确和可靠的预测


二、时间序列数据和序列相关性导论

    1.滞后、一阶差分、对数和增长率

        时间序列变量Y在时间t上的观测记为Y_t,总观测次数为T,观测间隔即观测t和观测t+1之间的时间段为时间单位

        Y的过去值和未来值有其特定的术语和符号:如,Y的前一期值称为一阶滞后值(first lagged value)或简称一阶滞后(first lag),记为Y_{t-1};其j期滞后值为j期前的取值,为Y_{t-j};类似地,Y_{t+1}表示未来一期的Y

        t-1期和t期之间Y值的变化称为变量Y_t的一阶差分(first difference),记为\Delta Y_t=Y_t-Y_{t-1}

        通常我们先计算经济时间序列的对数或对数变化后再来分析它们,一个理由是,许多经济序列具有近似指数的增长速度,序列的对数具有近似于线性的增长速度;另一个理由是,许多经济时间序列的标准差近似与其水平成比例,即标准差可用序列水平的百分率来表示,序列对数的标准差近似为常数

    2.自相关

        时间序列数据中某一期的Y取值,通常与前一期的Y取值相关

        序列与其自身滞后值之间的相关性称为自相关(autocorrelation)或序列相关(serial correlation)

        j阶自协方差:\gamma_j=cov(Y_t,Y_{t-j})

        其估计值:\hat{\gamma}_j=\frac{1}{T-j}\sum_{t=j+1}^T(Y_t-\overline{Y}_{j+1,T})(Y_{t-j}-\overline{Y}_{1,T-j})

    其中,\overline{Y}_{j+1,T}表示Y_t在观测t=j+1,...,T上的样本均值,\overline{Y}_{1,T-j}表示Y_tt=1,...,T-j上的样本均值

        j阶自相关:\rho_j=\frac{\gamma_j}{\sqrt{var(Y_t)var(Y_{t-j})}}

        其估计值:\hat{\rho}_j=\frac{\hat{\gamma}_j}{\hat{\gamma}_0}


三、自回归

    1.一阶自回归模型

        一阶自回归简记为AR(1):Y_t=\beta_0+\beta_1Y_{t-1}+u_t

        预测为\hat{Y}_{T+1|T}=\hat{\beta}_0+\hat{\beta}_1Y_T

        预测误差为Y_{T+1}-\hat{Y}_{T+1|T}


        预测误差均方根(root mean squared forecast error,RMSFE)度量了误差的大小,也就是采用预测模型所犯的典型错误大小,即RMSFE=\sqrt{\mathbb{E}[(Y_{T+1}-\hat{Y}_{T+1|T})^2]}

        RMSFE中有两种误差来源:即由于u_i未来值未知产生的误差,及估计系数\beta_0,\beta_1产生的误差

    2.p阶自回归模型

        p阶自回归简记为AR(p):Y_t=\beta_0+\beta_1Y_{t-1}+...+\beta_pY_{t-p}+u_t

        预测为\hat{Y}_{T+1|T}=\hat{\beta}_0+\hat{\beta}_1Y_{T-1}+...+\hat{\beta}_pY_{T-p+1}


四、包含其他预测变量的时间序列回归和自回归分布滞后模型

    1.自回归分布滞后模型

        具有因变量Y_t的p阶滞后和其他预测变量X_t的q阶滞后的自回归分布滞后模型,记为ADL(p,q),为Y_t=\beta_0+\beta_1Y_{t-1}+...+\beta_pY_{t-p}+\delta_1X_{t-1}+...+\delta_qX_{t-q}+u_t

        可推广到包含多个预测变量的时间序列回归

    2.平稳性

        若时间序列Y_t的概率分布不随时间变化,即(Y_{s+1},...,Y_{s+T})的联合分布不依赖于s,则称Y_t是平稳的(stationary),否则称Y_t是不平稳的(nonstationary)

    3.统计推断和Granger因果检验

        Granger因果关系统计量为检验某个变量所有取值的系数均为零假设的F统计量

    4.预测的不确定性和预测区间

        预测误差由两部分组成,即回归系数估计产生的不确定性和u_t未来值未知产生的不确定性;当回归系数很少而观测值很多时,由未来u_t引起的不确定性要比系数估计引起的不确定性大得多,但一般来说二者都很重要

        考虑基于一个预测变量的ADL(1,1)模型Y_t=\beta_0+\beta_1Y_{t-1}+\delta_1X_{t-1}+u_t预测Y_{t+1},假设u_t同方差

        预测误差为:Y_{T+1}-\hat{Y}_{T+1|T}=u_{T+1}-[(\hat{\beta}_0-\beta_0)+(\hat{\beta}_1-\beta_1)Y_T+(\hat{\delta}_1-\delta_1)X_T]

        均方误差为:\begin{align*}MSFE&=\mathbb{E}[(Y_{T+1}-\hat{Y}_{T+1|T})^2]\\&=\sigma_u^2+var[(\hat{\beta}_0-\beta_0)+(\hat{\beta}_1-\beta_1)Y_T+(\hat{\delta}_1-\delta_1)X_T]\end{align*}

        预测误差服从方差等于MSFE的正态分布,由此得95%置信区间


五、基于信息准则的滞后长度选取

    1.确定自回归的阶数

        实践中自回归阶数p的选取需要平衡多加入一个滞后项的边际收益和附加的估计不确定性的边际成本:一方面,如果自回归估计的阶数太低,那么你可能遗漏了包含在较远滞后值中的宝贵信息;另一方面,如果阶数太高,那么你将要估计不必要的系数,这会在预测中引入额外的估计误差

    ①F统计量方法

        从包含很多项滞后的模型开始,然后进行有关最后一项滞后的假设检验

    ②BIC

        Bayes信息准则(Bayes information criterion),亦称Schwarz信息准则(Schwarz information criterion)

        BIC(p)=\ln(\frac{SSR(p)}{T})+(p+1)\frac{\ln T}{T}

    其中,SSR(p)为AR(p)的残差平方和,p为滞后阶数,T为时间序列长度

    ③Akaike信息准则(Akaike information criterion)

        AIC(p)=\ln(\frac{SSR(p)}{T})+(p+1)\frac{2}{T}

    2.包含多个预测变量的滞后长度选取

        包含多个预测变量的一般时间序列回归模型,面临的滞后长度选取权衡,类似于自回归中的滞后长度选取,即若采用的滞后项太少则会由于丢失有价值的信息而使预测精度降低,但加入滞后项会增加估计的不确定性

    ①F统计量

        同一元自回归的情形,一种确定滞后阶数的方法是采用F统计量检验系数等于零的联合原假设

    ②信息准则

        BIC(K)=\ln(\frac{SSR(K)}{T})+K\frac{\ln T}{T}

        AIC=\ln(\frac{SSR(K)}{T})+K\frac{2}{T}    

        其中,K为模型含有的系数个数


六、非平稳性Ⅰ:趋势

    1.什么是趋势

        趋势(trend)是指变量随时间持续长期的运动,时间序列变量围绕其趋势波动

        确定性趋势(deterministic trend)是时间的非随机函数。例如,确定性趋势为时间的线性函数;随机性趋势(stochastic trend)是随机的且随时间变化。例如,通货膨胀中的随机性趋势显示出较长时间的下降之后伴随着较长时间的上升

        同许多计量经济学们一样,我们也认为建立含随机性趋势的经济时间序列模型要比建立含确定性趋势的时间序列模型更为恰当

        经济是一个很复杂的事物,很难调和确定性趋势暗含的可预测性和工人、企业和政府年复一年面临的复杂因素和意外。由于上述原因,我们将经济时间序列中的趋势处理为随机性的而非确定性的,故当我们提到时间序列数据中的”趋势“时,除非特别指出,一般我们指随机性趋势


        具有随机性趋势的变量最简单模型为随机游走,如果时间序列Y_t的变化是i.i.d的,则称Y_t服从随机游走(random walk),即Y_t=Y_{t-1}+u_t,且\mathbb{E}(u_t|Y_{t-1},Y_{t-2},...)=0

        可推广为带漂移的随机游走:Y_t=\beta_0+Y_{t-1}+u_t

        如果Y_t服从随机游走,则它是非平稳的,因为随机游走的方差随时间增加,Y_t的分布随时间变化,且方差无限增大


        随机游走模型是AR(1)模型中\beta_1=1的特殊情况;如果|\beta_1|<1u_t是平稳的,则Y_t也是平稳的

        AR(p)平稳的类似条件要比AR(1)中的条件复杂些,它的规范陈述涉及多项式1-\beta_1z-\beta_2z^2-...-\beta_pz^p的根,要使AR(p)平稳,则这个多项式根的绝对值必须都大于1;若AR(p)有一个等于1的根,则称序列有一个单位自回归根(unit autoregressive root),或简称单位根(unit root),进而包含了随机性趋势

    2.随机性趋势带来的问题

        若回归变量中包含随机性趋势,则其系数的OLS估计量及其OLS的t统计量即使在大样本下也不服从标准正态分布,我们将讨论这个问题的三个方面:

    ①偏向于零的自回归系数

        当AR(1)中自回归系数真值为1时,其估计量偏向于0

        一个推论是,当Y_t服从随机游走时,基于AR(1)模型的预测要比基于施加\beta_1=1真值的随机游走模型预测糟糕得多;这个结论同样适用于高阶自回归情形

    ②t统计量的非正态分布

        若回归变量中包含随机性趋势,则常用的OLS的t统计量在原假设成立时,即使在大样本下也服从非正态分布;这意味着常用的置信区间是不正确的,也不能像往常一样进行假设检验

    ③伪回归

        随机性趋势会使两个没有相关关系的时间序列呈现出相关性,称为伪回归(spurious regression);一种确保某些基于回归的方法可靠的特例是两个序列的趋势成分相同,即序列中包含了共同的随机性趋势,即协整(cointegrated)

    3.随机性趋势探测:单位AR根的检验

        我们可以通过非正规和正规方法探测时间序列数据中的趋势

        其中非正规方法是检查数据的时间序列图并计算自相关系数,即较小的一阶自相关和没有明显趋势的时间序列图表明序列不含趋势;正规方法是利用统计过程检验包含随机性趋势的原假设与不包含随机性趋势的备择假设

    ①AR(1)模型中的Dickey-Fuller检验

        Y_t=\beta_0+\beta_1Y_{t-1}+u_t,其中H_0:\beta_1=1\leftrightarrow H_1:\beta_1<1

        令\delta=\beta_1-1,得一阶差分形式:

        \Delta Y_t=\beta_0+\delta Y_{t-1}+u_t,其中H_0:\delta=0\leftrightarrow H_1:\delta<0

    ②AR(p)模型中的Dickey-Fuller检验

        单位自回归的改进Dicker-Fuller(ADF)检验:

        \Delta Y_t=\beta_0+\delta Y_{t-1}+\gamma_1\Delta Y_{t-1}+...+\gamma_p\Delta Y_{t-p}+u_t

    其中H_0:\delta=0\leftrightarrow H_1:\delta<0    

        若相反备择假设为Y_t围绕一确定的线性时间趋势是平稳的,则这个趋势必须作为回归变量加入到回归中:

        \Delta Y_t=\beta_0+at+\delta Y_{t-1}+\gamma_1\Delta Y_{t-1}+...+\gamma_p\Delta Y_{t-p}+u_t

    其中H_0:\delta=0\leftrightarrow H_1:\delta<0


        ADF统计量在单位根原假设下即使在大样本下也不服从正态分布;由于其分布非标准,因此当使用ADF统计量检验单位根时不能采用正态分布临界值,而必须采用原假设成立时ADF统计量分布的一系列特定临界值

    4.避免由随机性趋势带来的问题

        处理序列趋势的最可靠方法是变换序列使之不含趋势;若序列具有随机性趋势,即序列有单位根,则序列的一阶差分不含趋势

        由于假设检验存在置信度,因此实践中很少能确定序列中是否含有随机性趋势


七、非平稳性Ⅱ:突变

    1.什么是突变

        突变(break)来自总体回归系数在某一特定日期上的离散变化或来自系数在较长时期内的渐变,分为明显的变化和缓慢的变化

        如果总体回归函数在样本内发生了突变,则全样本的OLS回归估计的是”平均“成立的关系,即估计结合了两个不同的时期;取决于突变的位置和大小,”平均“回归函数和真实回归函数在样本结尾处可能会非常不同,由此得到的预测很糟

    2.突变的检验

        发现突变的一种方法是检验回归系数的离散变化或突变,怎么做取决于怀疑的突变时间(break date)是否已知

    ①突变时间已知时的突变检验

        在某些应用中,你或许会怀疑在某个已知时间上存在突变;如果系数中假定的突变时间已知,则可用二元变量交互回归检验没有突变的原假设,称为Chow检验

        考虑只有Y_t,X_t一阶滞后的ADL(1,1)模型,令\tau表示假定的突变时间,D_\tau(t)表示突变时间前等于0之后等于1的二元变量,即D_\tau(t)=\textbf{1}_{t>\tau},则包含二元突变指示变量和所有交互项的回归为:

Y_t=\beta_0+\beta_1Y_{t-1}+\delta_1X_{t-1}+\gamma_0D_\tau(t)+\gamma_1[D_\tau(t)Y_{t-1}]+\gamma_2[D_\tau(t)X_{t-1}]+u_t

        如果不存在突变,则两部分样本上的总体回归函数相同,因此涉及突变二元变量D_\tau(t)的项不出现在式中即H_0:\gamma_0=\gamma_1=\gamma_2=0

    ②突变时间未知时的突变检验

        突变可能时间一般是未知的或只知道落在某一范围内

        例如,假定你怀疑在两个日期\tau_0\tau_1间发生了突变,此时可修改Chow检验,使他能够处理其间所有可能日期\tau上的突变检验,然后利用得到的最大F统计量取值来检验未知时间上的突变。这种修改后的Chow检验称为Quandt似然比(Quandt likelihood ratio,QLR)统计量,或含糊地称为sup-Wald统计量(sup-Wald statistic)

        QLR=\max[F(\tau_0),F(\tau_0+1),...,F(\tau_1)]

    3.伪样本外预测

        预测模型的最终检验为样本外表现,即模型估计之后在“真实时间”上的预测表现

        伪样本外预测(pseudo out-of-sample forecasting)是一种模拟预测模型在真实时间上表现的方法,即挑选一个接近样本末尾的时间,用直到这个时间的数据估计预测模型,然后利用这个预测模型估计作预测;对样本末尾处的多个时间进行上述步骤,得一系列伪预测,并由此得伪预测误差及其RMSFE

        伪样本外预测模拟了实际时间上发生的预测过程,但不需要等待新数据的抵达


        伪样本外预测计算分为如下步骤:

    ①选择观测次数P,这是要进行伪样本外预测的,令s=T-P

    ②利用压缩后的数据t=1,...,s估计预测回归

    ③计算这个缩短样本外第一期s+1的预测,记为\tilde{Y}_{s+1}

    ④计算预测误差,记为\tilde{u}_{s+1}=Y_{s+1}-\tilde{Y}_{s+1}

    ⑤对剩下的时间s=Y-P+1,...,T-1重复步骤②③④

        得到的伪样本外预测为\{\tilde{Y}_{s+1},s=T-P,...,T-1\},伪样本外预测误差为\{\tilde{u}_{s+1},s=T-P,...,T-1\}

    4.避免突变产生的问题

        调整总体回归函数中突变的最佳方法依赖于突变的来源

        若在某一特定时间上发生了明显的突变,则QLR统计量会一较高概率发现这一突变,并能估计出这个突变时间,因此可以通过表示和这个突变有关的两个子样本的二元变量及与其他回归变量的必要交互项估计回归函数

        此外,根据突变的系数来确定交互项的设置

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容