商务与经济统计——时间序列分析

1. 主要概念及其定义

时间序列
一个变量在连续时点或者连续时期上测量的观测值的序列。
平稳时间序列
统计性质与时间独立的时间序列。平稳时间序列过程产生的数据有一个不变的均值，而且时间序列的变异性随着时间的推移保持不变。一般地，如果时间序列基本是平稳的，所有历史数据平均值法将永远提供最好的结果。
时间序列的模式
水平模式
当数据围绕着一个不变的均值上下波动时，则存在水平模式。
趋势模式
如果时间序列图在一段较长的时间内呈现出逐步改变或移动到相对较高的或较低的值，则存在趋势模式。
季节模式
如果时间序列图在连续的时期内而呈现重复模式，在存在季节模式。
趋势与季节模式
时间序列同时包含趋势模式和季节模式。
循环模式
如果时间序列图显示出持续时间超过一年的在趋势线的上下交替的点序列，则存在循环模式。
预测精度
预测误差 (forecast error)
预测误差 = 实际值- 预测值
平均绝对误差 (mean absolute error)
MAE = 预测误差绝对值的平均值
均方误差 (mean squared error)
MSE = 预测误差平方和的平均值
平方绝对百分误差 (mean absolute percentage error)
MAPE = 百分数预测误差的绝对值的平均值
其中，百分数预测误差 = 预测误差 / 实际值 X 100%

2. 具有水平模式的时间序列预测方法

2.1 移动平均法

使用时间序列中最近 $k$ 期数据值的平均数作为下一个时期的预测值的一种方法。
$F_{t+1} = \frac{最近k期数据值之和}{k} = \frac{Y_t + Y_{t-1}+ \cdots + Y_{t-k+1}}{k}$
其中， $F_{t+1}$ 代表时间序列 $t+1$ 期的预测值； $Y_t$ 代表时间序列 $t$ 期的实际值。
较小的 $k$ 值将更快速追踪时间序列的移动，而较大的 $k$ 值将随着时间的推移更有效的消除随机波动。可以根据 $MSE$ 等精度指标来确定合适的 $k$ 值。

2.2 加权移动平均法

对时间序列最近 $k$ 期数据值选择不同的权重，然后计算加权平均数的一种预测方法，需满足权重之和等于 $1$ 。
$F_{t+1} = Y_t \omega_t+ Y_{t-1}\omega_{t-1}+ \cdots + Y_{t-k+1}\omega_{t-k+1}$
其中， $\omega_t$ 表示第 $t$ 期实际值的权重， $\omega_{t}+ \omega_{t+1} + \cdots + \omega_{t-k+1} = 1$
一般情形下，较近的观测值拥有较大的权重。

2.3 指数平滑法

用过去时间序列值的加权平均数作为预测值的一种方法，它是加权移动平均方法的特殊情形，只选择一个权重——最近时期观测值的权重。
$F_{t+1} = \alpha Y_t + (1-\alpha)F_{t}$
其中， $F_{t+1}$ 代表时间序列 $t+1$ 期的预测值； $Y_t$ 代表时间序列 $t$ 期的实际值； $F_t$ 代表时间序列 $t$ 期的预测值， $\alpha$ 代表平滑常数 ( $0\leqslant \alpha \leqslant 1$ )。
如果时间序列包含大量的随机波动，则应选择较小的平滑常数 $\alpha$ 。（ $F_{t+1} = F_t + \alpha (Y_t - F_t)$ ，新的预测值 $F_{t+1}$ 等于过去的预测值 $F_t$ 加上 $\alpha$ 乘以最近时期的预测误差 $Y_t - F_t$ ）

3. 具有趋势模式的时间序列预测方法

3.1 线性趋势回归

线性趋势方程
$T_t = b_0 + b_1t$
其中， $T_t$ 为 $t$ 期线性趋势预测值； $b_0$ 为线性趋势线的截距； $b_1$ 为线性趋势线的斜率； $t$ 为期间。

3.2 Holt 线性指数平滑

$Holt$ 线性指数平滑方程
$L_t = \alpha Y_t + (1-\alpha)(L_{t-1} + b_{t-1})$
$b_t = \beta (L_t - L_{t-1}) + (1-\beta)(b_{t-1})$
$F_{t+k} = L_t + b_tk$
其中， $L_t$ 为 $t$ 期时间序列水平的估计值； $b_t$ 为 $t$ 期时间序列斜率的估计值； $\alpha$ 是时间序列水平的平滑常数； $\beta$ 是时间序列斜率的平滑常数； $F_{t+k}$ 是向前 $k$ 期的预测值； $k$ 是向前预测的时期个数。
一般情况下，令 $L_1 = Y_1$ ， $b_1 = Y_2 - Y_1$ 来启动程序。对于观测值（ $Y_t$ ）的权重更多的给与较大的 $\alpha$ 值，而对预测值（ $L_{t-1} + b_{t-1}$ ）的权重更多的给与较小的值；对估计的水平之差（ $L_t - L_{t-1}$ ）的权重更多的给与较大的 $\beta$ 值，而对过去时期斜率估计值（ $b_{t-1}$ ）的权重更多的给与较小的值。

3.3 非线性趋势方程

二次趋势方程
$T_t = b_0 + b_1t + b_2t^2$
指数趋势方程
$T_t = b_0(b_1)^t$

4. 季节性和趋势

4.1 没有趋势的季节性

将季节作为一个分类变量，建立 $k-1$ 个虚拟变量（假设共有 $k$ 个季节）进行回归预测。
如果有 $4$ 个季度，则可以建立 $3$ 个虚拟变量：
$Qtr1 = \left\{\begin{matrix} 1, \quad 第一节度\\ 0, \quad 其他 \end{matrix}\right.$

$Qtr2 = \left\{\begin{matrix} 1, \quad 第二节度\\ 0, \quad 其他 \end{matrix}\right.$

$Qtr3 = \left\{\begin{matrix} 1, \quad 第三节度\\ 0, \quad 其他 \end{matrix}\right.$
于是，估计的回归方程的一般形式为
$\hat{Y} = b_0 + b_1 Qtr1 + b_2 Qtr2 + b_3 Qtr3$

4.2 季节性和趋势

同样采用将季节性进行虚拟变量编码，同时结合线性趋势的时间序列方法。季节性和趋势的多元回归方程的一般形式如下：
$\hat{Y} = b_0 + b_1 Qtr1 + b_2 Qtr2 + b_3 Qtr3 + b_4t$

5. 时间序列分解

时间序列分解是用于将一个时间序列分解出季节和趋势成分的时间序列方法，一般可以将一个时间序列分解成季节、趋势和不规则成分。
主要有两种分解模型：

加法分解模型 (additive decomposition model) 的形式如下：
$Y_t = Trend_t + Seasonal_t + Irregular_t$
其中， $Trend_t$ 为 $t$ 期的趋势值； $Seasonal_t$ 为 $t$ 期的季节值； $Irregular_t$ 为 $t$ 期的不规则值；
乘法分解模型 (multiplicative decomposition model) 的形式如下：
$Y_t = Trend_t \times Seasonal_t \times Irregular_t$
其中， $Trend_t$ 为 $t$ 期的趋势值； $Seasonal_t$ 为 $t$ 期的季节值； $Irregular_t$ 为 $t$ 期的不规则值；

加法模型适合于季节影响不依赖于时间序列水平的情形。如果前期季节影响的规模与后期季节影响的规模相同，则加法模型是合适的；如果季节影响随时间发生改变，则应该使用乘法模型。

5.1 计算季节指数

确定每个季节的季节影响的一般步骤是先计算移动平均数，从数据中剔除组合在一起的季节和不规则影响，剩下的时间序列只包含趋势和移动平均没有剔除的随机波动。由乘法模型可知，方程两边同时除以趋势成分 $Trend_t$ ，就可以识别出时间序列中的季节-不规则成分的组合影响。
$\frac{Y_t}{Trend_t} = \frac{Trend_t \times Seasonal_t \times Irregular_t}{Trend_t} = Seasonal_t \times Irregular_t$
乘法模型要求平均季节指数等于1。

5.2 消除季节影响的时间序列

原始时间序列观测值除以相应的季节指数得到的数值。

6. 时间序列模型

6.1 AR (Auto Regressive Model)

具有以下结构的模型称为 $p$ 阶自回归模型，简记为 $AR(p)$ ：
$\left\{\begin{matrix} x_t = \phi_0 + \phi_1x_{t-1} + \phi_2x_{t-2} + \cdots + \phi_px_{t-p} + \varepsilon_t\\ \phi_p \neq 0\\ E(\varepsilon_t) = 0, Var(\varepsilon_t) = \sigma_{\varepsilon}^2, E(\varepsilon_t\varepsilon_s)=0, s \neq t\\ E(x_s \varepsilon_t) = 0,\forall s<t \end{matrix}\right.$
$AR(p)$ 模型有 $3$ 个限制条件：

$\phi_p \neq 0$ 保证模型的最高阶数为 $p$
$E(\varepsilon_t) = 0, Var(\varepsilon_t) = \sigma_{\varepsilon}^2, E(\varepsilon_t\varepsilon_s)=0, s \neq t$ 要求随机干扰序列 $\{\varepsilon_t\}$ 为零均值白噪声序列。
$E(x_s \varepsilon_t) = 0,\forall s<t$ 当期的随机干扰与过去的序列无关。
要求时序数据是稳定的（stationary）。

6.2 MA (Moving Average Model)

具有以下结构的模型称为 $q$ 阶移动平均模型，简记为 $MA(q)$ ：
$\left\{\begin{matrix} x_t = \mu + \varepsilon_t - \theta_1 \varepsilon_{t-1} - \theta_2 \varepsilon_{t-2} - \cdots - \theta_q \varepsilon_{t-q}\\ \theta_q \neq 0\\ E(\varepsilon_t) = 0, Var(\varepsilon_t) = \sigma_{\varepsilon}^2, E(\varepsilon_t\varepsilon_s)=0, s \neq t\\ \end{matrix}\right.$
$MA(q)$ 模型有 $2$ 个限制条件：

$\theta_q \neq 0$ 保证模型的最高阶数为 $q$
$E(\varepsilon_t) = 0, Var(\varepsilon_t) = \sigma_{\varepsilon}^2, E(\varepsilon_t\varepsilon_s)=0, s \neq t$ 要求随机干扰序列 $\{\varepsilon_t\}$ 为零均值白噪声序列。
要求时序数据是稳定的（stationary）

6.3 ARMA (Auto Regressive and Moving Average Model)

具有以下结构的模型称为自回归移动平均模型，简记为 $ARMA(p, q)$ ：
$\left\{\begin{matrix} x_t = \phi_0 + \phi_1x_{t-1} + \cdots + \phi_px_{t-p} + \varepsilon_t - \theta_1 \varepsilon_{t-1} - \cdots - \theta_q \varepsilon_{t-q}\\ \phi_p \neq 0, \theta_q \neq 0\\ E(\varepsilon_t) = 0, Var(\varepsilon_t) = \sigma_{\varepsilon}^2, E(\varepsilon_t\varepsilon_s)=0, s \neq t\\ E(x_s \varepsilon_t) = 0,\forall s<t \end{matrix}\right.$
$ARMA(p, q)$ 模型有 $3$ 个限制条件：

$\phi_p \neq 0$ 保证自回归模型的最高阶数为 $p$ ， $\theta_q \neq 0$ 保证移动平均模型的最高阶数为 $q$
$E(\varepsilon_t) = 0, Var(\varepsilon_t) = \sigma_{\varepsilon}^2, E(\varepsilon_t\varepsilon_s)=0, s \neq t$ 要求随机干扰序列 $\{\varepsilon_t\}$ 为零均值白噪声序列。
$E(x_s \varepsilon_t) = 0,\forall s<t$ 当期的随机干扰与过去的序列无关。
要求时序数据是稳定的（stationary）

6.4 ARIMA (Auto Regressive Integrated Moving Average Model)

具有以下结构的模型称为差分自回归移动平均模型，简记为 $ARIMA(p, d, q)$ ：
$\left\{\begin{matrix} y_t = \phi_0 + \phi_1y_{t-1} + \cdots + \phi_py_{t-p} + e_t - \theta_1 e_{t-1} - \cdots - \theta_q e_{t-q}\\ \phi_p \neq 0, \theta_q \neq 0\\ E(e_t) = 0, Var(e_t) = \sigma_e^2, E(e_te_s)=0, s \neq t\\ E(y_s e_t) = 0,\forall s<t \end{matrix}\right.$
其中 $y_t$ 表示 $t$ 时刻 $x$ 的差分：
$if d=0, y_t = x_t \\ if d = 1, y_t = x_t - x_{t-1} \\ if d = 2, y_t = (x_t - x_{t-1}) - (x_{t-1} - x_{t-2}) \\ \cdots$
要求时序数据是稳定的（stationary），或者是通过差分化(differencing)后是稳定的。

6.5 ARCH (Autoregressive conditional heteroskedasticity model)

ARCH模型的基本思想是指在以前信息集下，某一时刻一个噪声的发生是服从正态分布。该正态分布的均值为零，方差是一个随时间变化的量(即为条件异方差)。并且这个随时间变化的方差是过去有限项噪声值平方的线性组合(即为自回归)。这样就构成了自回归条件异方差模型。
$\left\{\begin{matrix} x_t = \sigma_t \varepsilon_t \\ \sigma_t^2 = \alpha_0 + \alpha_1x_{t-1}^2 + \cdots + \alpha_mx_{t-m}^2 \\ \alpha_0 >0 \\ \forall i>0, \alpha_i \geqslant 0 \end{matrix}\right.$
其中 $\{ \varepsilon_t \}$ 为均值为 $0$ ，方差为 $1$ 的独立同分布 $(iid)$ 随机变量序列，通常假定其服从标准正态分布。 $\sigma_t^2$ 为条件异方差。