商务与经济统计——时间序列分析

1. 主要概念及其定义

  • 时间序列
    一个变量在连续时点或者连续时期上测量的观测值的序列。
  • 平稳时间序列
    统计性质与时间独立的时间序列。平稳时间序列过程产生的数据有一个不变的均值,而且时间序列的变异性随着时间的推移保持不变。一般地,如果时间序列基本是平稳的,所有历史数据平均值法将永远提供最好的结果。
  • 时间序列的模式
  • 水平模式
    当数据围绕着一个不变的均值上下波动时,则存在水平模式。
  • 趋势模式
    如果时间序列图在一段较长的时间内呈现出逐步改变或移动到相对较高的或较低的值,则存在趋势模式。
  • 季节模式
    如果时间序列图在连续的时期内而呈现重复模式,在存在季节模式。
  • 趋势与季节模式
    时间序列同时包含趋势模式和季节模式。
  • 循环模式
    如果时间序列图显示出持续时间超过一年的在趋势线的上下交替的点序列,则存在循环模式。
  • 预测精度
  • 预测误差 (forecast error)
    预测误差 = 实际值- 预测值
  • 平均绝对误差 (mean absolute error)
    MAE = 预测误差绝对值的平均值
  • 均方误差 (mean squared error)
    MSE = 预测误差平方和的平均值
  • 平方绝对百分误差 (mean absolute percentage error)
    MAPE = 百分数预测误差的绝对值的平均值
    其中,百分数预测误差 = 预测误差 / 实际值 X 100%

2. 具有水平模式的时间序列预测方法

2.1 移动平均法

使用时间序列中最近 k 期数据值的平均数作为下一个时期的预测值的一种方法。
F_{t+1} = \frac{最近k期数据值之和}{k} = \frac{Y_t + Y_{t-1}+ \cdots + Y_{t-k+1}}{k}
其中,F_{t+1} 代表时间序列 t+1 期的预测值;Y_t 代表时间序列 t 期的实际值。
较小的 k 值将更快速追踪时间序列的移动,而较大的 k 值将随着时间的推移更有效的消除随机波动。可以根据 MSE 等精度指标来确定合适的 k 值。

2.2 加权移动平均法

对时间序列最近 k 期数据值选择不同的权重,然后计算加权平均数的一种预测方法,需满足权重之和等于 1
F_{t+1} = Y_t \omega_t+ Y_{t-1}\omega_{t-1}+ \cdots + Y_{t-k+1}\omega_{t-k+1}
其中,\omega_t 表示第 t 期实际值的权重,\omega_{t}+ \omega_{t+1} + \cdots + \omega_{t-k+1} = 1
一般情形下,较近的观测值拥有较大的权重。

2.3 指数平滑法

用过去时间序列值的加权平均数作为预测值的一种方法,它是加权移动平均方法的特殊情形,只选择一个权重——最近时期观测值的权重。
F_{t+1} = \alpha Y_t + (1-\alpha)F_{t}
其中,F_{t+1} 代表时间序列 t+1 期的预测值;Y_t 代表时间序列 t 期的实际值;F_t 代表时间序列 t 期的预测值,\alpha 代表平滑常数 ( 0\leqslant \alpha \leqslant 1 )。
如果时间序列包含大量的随机波动,则应选择较小的平滑常数 \alpha。( F_{t+1} = F_t + \alpha (Y_t - F_t),新的预测值F_{t+1} 等于过去的预测值 F_t 加上 \alpha 乘以最近时期的预测误差 Y_t - F_t

3. 具有趋势模式的时间序列预测方法

3.1 线性趋势回归

线性趋势方程
T_t = b_0 + b_1t
其中,T_tt 期线性趋势预测值;b_0 为线性趋势线的截距;b_1 为线性趋势线的斜率;t 为期间。

3.2 Holt 线性指数平滑

Holt 线性指数平滑方程
L_t = \alpha Y_t + (1-\alpha)(L_{t-1} + b_{t-1})
b_t = \beta (L_t - L_{t-1}) + (1-\beta)(b_{t-1})
F_{t+k} = L_t + b_tk
其中,L_tt 期时间序列水平的估计值;b_tt 期时间序列斜率的估计值;\alpha 是时间序列水平的平滑常数;\beta 是时间序列斜率的平滑常数;F_{t+k} 是向前 k 期的预测值;k 是向前预测的时期个数。
一般情况下,令 L_1 = Y_1b_1 = Y_2 - Y_1 来启动程序。对于观测值(Y_t)的权重更多的给与较大的 \alpha 值,而对预测值(L_{t-1} + b_{t-1})的权重更多的给与较小的值;对估计的水平之差(L_t - L_{t-1})的权重更多的给与较大的 \beta 值,而对过去时期斜率估计值(b_{t-1})的权重更多的给与较小的值。

3.3 非线性趋势方程

二次趋势方程
T_t = b_0 + b_1t + b_2t^2
指数趋势方程
T_t = b_0(b_1)^t

4. 季节性和趋势

4.1 没有趋势的季节性

将季节作为一个分类变量,建立 k-1 个虚拟变量(假设共有 k 个季节)进行回归预测。
如果有 4 个季度,则可以建立 3 个虚拟变量:
Qtr1 = \left\{\begin{matrix} 1, \quad 第一节度\\ 0, \quad 其他 \end{matrix}\right.

Qtr2 = \left\{\begin{matrix} 1, \quad 第二节度\\ 0, \quad 其他 \end{matrix}\right.

Qtr3 = \left\{\begin{matrix} 1, \quad 第三节度\\ 0, \quad 其他 \end{matrix}\right.
于是,估计的回归方程的一般形式为
\hat{Y} = b_0 + b_1 Qtr1 + b_2 Qtr2 + b_3 Qtr3

4.2 季节性和趋势

同样采用将季节性进行虚拟变量编码,同时结合线性趋势的时间序列方法。季节性和趋势的多元回归方程的一般形式如下:
\hat{Y} = b_0 + b_1 Qtr1 + b_2 Qtr2 + b_3 Qtr3 + b_4t

5. 时间序列分解

时间序列分解是用于将一个时间序列分解出季节和趋势成分的时间序列方法,一般可以将一个时间序列分解成季节、趋势和不规则成分。
主要有两种分解模型:

  • 加法分解模型 (additive decomposition model) 的形式如下:
    Y_t = Trend_t + Seasonal_t + Irregular_t
    其中,Trend_tt 期的趋势值;Seasonal_tt 期的季节值;Irregular_tt 期的不规则值;
  • 乘法分解模型 (multiplicative decomposition model) 的形式如下:
    Y_t = Trend_t \times Seasonal_t \times Irregular_t
    其中,Trend_tt 期的趋势值;Seasonal_tt 期的季节值;Irregular_tt 期的不规则值;

加法模型适合于季节影响不依赖于时间序列水平的情形。如果前期季节影响的规模与后期季节影响的规模相同,则加法模型是合适的;如果季节影响随时间发生改变,则应该使用乘法模型。

5.1 计算季节指数

确定每个季节的季节影响的一般步骤是先计算移动平均数,从数据中剔除组合在一起的季节和不规则影响,剩下的时间序列只包含趋势和移动平均没有剔除的随机波动。由乘法模型可知,方程两边同时除以趋势成分 Trend_t,就可以识别出时间序列中的季节-不规则成分的组合影响。
\frac{Y_t}{Trend_t} = \frac{Trend_t \times Seasonal_t \times Irregular_t}{Trend_t} = Seasonal_t \times Irregular_t
乘法模型要求平均季节指数等于1。

5.2 消除季节影响的时间序列

原始时间序列观测值除以相应的季节指数得到的数值。

6. 时间序列模型

6.1 AR (Auto Regressive Model)

具有以下结构的模型称为 p 阶自回归模型,简记为 AR(p)
\left\{\begin{matrix} x_t = \phi_0 + \phi_1x_{t-1} + \phi_2x_{t-2} + \cdots + \phi_px_{t-p} + \varepsilon_t\\ \phi_p \neq 0\\ E(\varepsilon_t) = 0, Var(\varepsilon_t) = \sigma_{\varepsilon}^2, E(\varepsilon_t\varepsilon_s)=0, s \neq t\\ E(x_s \varepsilon_t) = 0,\forall s<t \end{matrix}\right.
AR(p) 模型有 3 个限制条件:

  1. \phi_p \neq 0 保证模型的最高阶数为 p
  2. E(\varepsilon_t) = 0, Var(\varepsilon_t) = \sigma_{\varepsilon}^2, E(\varepsilon_t\varepsilon_s)=0, s \neq t 要求随机干扰序列 \{\varepsilon_t\} 为零均值白噪声序列。
  3. E(x_s \varepsilon_t) = 0,\forall s<t 当期的随机干扰与过去的序列无关。
  4. 要求时序数据是稳定的(stationary)。

6.2 MA (Moving Average Model)

具有以下结构的模型称为 q 阶移动平均模型,简记为 MA(q)
\left\{\begin{matrix} x_t = \mu + \varepsilon_t - \theta_1 \varepsilon_{t-1} - \theta_2 \varepsilon_{t-2} - \cdots - \theta_q \varepsilon_{t-q}\\ \theta_q \neq 0\\ E(\varepsilon_t) = 0, Var(\varepsilon_t) = \sigma_{\varepsilon}^2, E(\varepsilon_t\varepsilon_s)=0, s \neq t\\ \end{matrix}\right.
MA(q) 模型有 2 个限制条件:

  1. \theta_q \neq 0 保证模型的最高阶数为 q
  2. E(\varepsilon_t) = 0, Var(\varepsilon_t) = \sigma_{\varepsilon}^2, E(\varepsilon_t\varepsilon_s)=0, s \neq t 要求随机干扰序列 \{\varepsilon_t\} 为零均值白噪声序列。
  3. 要求时序数据是稳定的(stationary)

6.3 ARMA (Auto Regressive and Moving Average Model)

具有以下结构的模型称为自回归移动平均模型,简记为 ARMA(p, q)
\left\{\begin{matrix} x_t = \phi_0 + \phi_1x_{t-1} + \cdots + \phi_px_{t-p} + \varepsilon_t - \theta_1 \varepsilon_{t-1} - \cdots - \theta_q \varepsilon_{t-q}\\ \phi_p \neq 0, \theta_q \neq 0\\ E(\varepsilon_t) = 0, Var(\varepsilon_t) = \sigma_{\varepsilon}^2, E(\varepsilon_t\varepsilon_s)=0, s \neq t\\ E(x_s \varepsilon_t) = 0,\forall s<t \end{matrix}\right.
ARMA(p, q) 模型有 3 个限制条件:

  1. \phi_p \neq 0 保证自回归模型的最高阶数为 p\theta_q \neq 0 保证移动平均模型的最高阶数为 q
  2. E(\varepsilon_t) = 0, Var(\varepsilon_t) = \sigma_{\varepsilon}^2, E(\varepsilon_t\varepsilon_s)=0, s \neq t 要求随机干扰序列 \{\varepsilon_t\} 为零均值白噪声序列。
  3. E(x_s \varepsilon_t) = 0,\forall s<t 当期的随机干扰与过去的序列无关。
  4. 要求时序数据是稳定的(stationary)

6.4 ARIMA (Auto Regressive Integrated Moving Average Model)

具有以下结构的模型称为差分自回归移动平均模型,简记为 ARIMA(p, d, q)
\left\{\begin{matrix} y_t = \phi_0 + \phi_1y_{t-1} + \cdots + \phi_py_{t-p} + e_t - \theta_1 e_{t-1} - \cdots - \theta_q e_{t-q}\\ \phi_p \neq 0, \theta_q \neq 0\\ E(e_t) = 0, Var(e_t) = \sigma_e^2, E(e_te_s)=0, s \neq t\\ E(y_s e_t) = 0,\forall s<t \end{matrix}\right.
其中 y_t 表示 t 时刻 x 的差分:
if d=0, y_t = x_t \\ if d = 1, y_t = x_t - x_{t-1} \\ if d = 2, y_t = (x_t - x_{t-1}) - (x_{t-1} - x_{t-2}) \\ \cdots
要求时序数据是稳定的(stationary),或者是通过差分化(differencing)后是稳定的。

6.5 ARCH (Autoregressive conditional heteroskedasticity model)

ARCH模型的基本思想是指在以前信息集下,某一时刻一个噪声的发生是服从正态分布。该正态分布的均值为零,方差是一个随时间变化的量(即为条件异方差)。并且这个随时间变化的方差是过去有限项噪声值平方的线性组合(即为自回归)。这样就构成了自回归条件异方差模型。
\left\{\begin{matrix} x_t = \sigma_t \varepsilon_t \\ \sigma_t^2 = \alpha_0 + \alpha_1x_{t-1}^2 + \cdots + \alpha_mx_{t-m}^2 \\ \alpha_0 >0 \\ \forall i>0, \alpha_i \geqslant 0 \end{matrix}\right.
其中 \{ \varepsilon_t \} 为均值为 0, 方差为 1 的独立同分布 (iid) 随机变量序列,通常假定其服从标准正态分布。\sigma_t^2 为条件异方差。

6.6 GARCH (generalized autoregressive conditional heteroskedasticity)

如果方差用 ARMA 模型来表示,则 ARCH 模型变成了 GARCH 模型。

【参考文献】

  1. https://en.wikipedia.org/wiki/Autoregressive_conditional_heteroskedasticity
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容