机器学习(十一):时间序列AIRMA模型及案例分析

一、简介

ARIMA模型(Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型,时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是"自回归",p为自回归项数;MA为"滑动平均",q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。"差分"一词虽未出现在ARIMA的英文名称中,却是关键步骤。

平稳性:

  • 平稳性就是要求经由样本时间序列所得到的拟合曲线在未来的一段时间内仍能顺着现有的形态"惯性"地持续下去。
  • 平稳性要求序列的均值和方差不发生明显变化

严平稳与弱平稳:

  • 严平稳:严平稳表示的分布不随时间的改变而改变,如:白噪声(正态),无论怎么取,都是期望为0,方差为1
  • 弱平稳:期望与相关系数(依赖性)不变,未来某时刻的t的值Xt要依赖于它的过去信息,所以需要依赖性

差分法:

  • 时间序列在t与t-1时刻的差值

二、ARIMA模型原理

1、AR模型

自回归模型(AR):

  • 描述当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测
  • 自回归模型必须满足平稳性的要求
  • p阶自回归过程的公式定义:
    y_{t}=\mu + \sum_{i=1}^{p}r_{i}y_{t-i}+\epsilon_{t}
    y_{t}是当前值,\mu是常数项,P是阶数,r_{i}是自相关系数,\epsilon_{t}是误差。

自回归模型的限制:

  • 自回归模型是用自身的数据来进行预测
  • 必须具有平稳性
  • 必须具有自相关性,弱自相关系数r_{i}小于0.5,则不宜采用
  • 自回归只适用于预测与自身前期相关的现象

2、MA模型

移动平均模型(MA):

  • 移动平均模型关注的是自回归模型中的误差项的累加
  • q阶自回归过程的公式定义:
    y_{t}=\mu + \epsilon_{t} + \sum_{i=1}^{q}\theta_{i}\epsilon_{t-i}
  • 移动平均法能有效地消除预测中的随机波动

3、ARMA模型

自回归移动平均模型(ARMA)

  • 自回归与移动平均的结合
  • 公式定义:y_{t}=\mu +\sum_{i=1}^{p}r_{i}y_{t-i} + \epsilon_{t} + \sum_{i=1}^{q}\theta_{i}\epsilon_{t-i}

4、ARIMA模型

ARIMA(p,d,q)模型全称为差分自回归移动平均模型

  • AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数,一般做一阶差分就可以了,很少有做二阶差分的
  • 原理:将非平稳时间序列转化为平稳时间序列然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型

5、相关函数评估(选择p,q值)方法

1、自相关函数ACF公式:

  • 有序的随机变量序列与其自身相比较自相关函数反映了同一序列在不同时序的取值之间的相关性。
  • 公式:
    ACF(k)=\rho _{k}=\frac{Cov(y_{t},y_{t-k})}{Var(y_{t})}
  • Pk的取值范围为[-1,1]


2、偏自相关函数(PACF)(partial autocorrelation function)

  • 对于一个平稳AR(p)模型,求出滞后k自相关系数p(k)时,实际上得到的并不是x(t)与x(t-k)之间单纯的相关关系
  • x(t)同时还会受到中间k-1个随机变量x_{(t-1)}、x_{(t-2)}、...、x_{(t-k+1)}的影响而这k-1个随机变量又都和x_{(t-k)}具有相关关系,所以自相关系数p(k)里实际参杂了其他变量对x(t)和x(t-k)的影响。
  • 剔除了中间k-1个随机变量x_{(t-1)}、x_{(t-2)}、...、x_{(t-k+1)}的干扰之后x_{(t-k)}对x(t)影响的相关程度。
  • ACF还包含了其他变量的影响而偏自相关系数PACF是严格这两个变量之间的相关性。

3、ARIMA(p,d,q)阶数确定:

模型 ACF PACF
AR(p) 衰减趋于零(几何型或振荡型) p阶后截尾
MA(q) q阶后截尾 衰减趋于零(几何型或振荡型)
ARMA(p,q) q阶后衰减趋于零(几何型或振荡型) p阶后衰减趋于零(几何型或振荡型)

截尾:落在置信区间内(95%的点都符合该规则)
4、ARIMA(p,d,q)阶数确定
通过上图可知:

  • MA(q)看ACF
  • AR(p)看PACF

5、利用AIC和BIC准则:选择参数p、q

  • AIC:赤池信息准则(Akaike Information Criterion,AIC)AIC = 2K - 2ln(L)
  • BIC:贝叶斯信息准则(Bayesian Information Criterion,BIC)BIC = kln(n) - 2ln(L)
    k为模型参数个数,n为样本数量,L为似然函数

6、模型残差检验

  • ARIMA模型的残差是否是平均值为0且方差为常数的正态分布
  • QQ图:线性即正态分布

6、ARIMA建模流程

1、将序列平稳(差分法确定d)
2、p和q阶数确定:ACF与PACF
3、ARIMA(p,d,q)

三、案例分析

该案例分析用到的数据集是股票数据,有需要的同学可以私信我。

1、数据

%matplotlib inline
import pandas as pd
import datetime
import matplotlib.pylab as plt
import seaborn as sns
from matplotlib.pylab import style
from statsmodels.tsa.arima_model import ARIMA
from statsmodels.graphics.tsaplots import plot_acf,plot_pacf

style.use('ggplot')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus']=False
stock = pd.read_csv('../数据集/时间序列/T10yr.csv',index_col=0,parse_dates=[0])#ARIMA模型指定时间为索引
stock.tail(10)

2、对数据进行重采样

这里我们以数据的关盘价为目标,按每周周一为起始去平均值

stock_week = stock['Close'].resample('W-MON').mean()#进行重采样,以关盘价为分析数据,按每周周一起始取平均
stock_week.head(10)

3、画图展示数据

我们取2000-2015年之间的数据为我们的训练集

stock_train = stock_week['2000':'2015']
stock_train.plot(figsize=(12,8))
plt.legend(bbox_to_anchor=(1.25,0.5))
plt.title('Stock Close')
sns.despine()

4、计算一阶差分

画图展示一下一阶差分的数据,看一下是否取一阶差分

#计算一阶差分
stock_diff = stock_train.diff()
stock_diff = stock_diff.dropna()

plt.figure(figsize=(10,8))
plt.plot(stock_diff)
plt.title('一阶差分')
plt.show()


通过上图观察发现,一阶差分后的走势已经变得相对平稳,我们可以直接去一阶差分就可以了。所以d=1

5、计算ACF、PACF确定p、q

ACF确定q

acf = plot_acf(stock_diff,lags=20)
plt.title("ACF")
acf.show()


通过ACF图,可以看出,从1之后就进入了置信区间,所以q=1
PACF确定p

pacf = plot_pacf(stock_diff,lags=20)
plt.title("PACF")
pacf.show()


通过PACF图可以大体看出1之后也进入了置信区间,所以这里p=1.
这里有一个函数可以调用,只需要数据传入即可,

#在下图分别绘制原始数据的残差图、直方图、ACF图和PACF图
def tsplot(y,lags=None,title='',figsize=(14,8)):
    fig = plt.figure(figsize=figsize)
    layout = (2,2)
    ts_ax = plt.subplot2grid(layout,(0,0))
    hist_ax = plt.subplot2grid(layout,(0,1))
    acf_ax= plt.subplot2grid(layout,(1,0))
    pacf_ax = plt.subplot2grid(layout,(1,1))
    
    y.plot(ax=ts_ax)
    ts_ax.set_title(title)
    y.plot(ax=hist_ax,kind='hist',bins=25)
    hist_ax.set_title('Histogram')
    smt.graphics.plot_acf(y,lags=lags,ax=acf_ax)
    smt.graphics.plot_pacf(y,lags=lags,ax=pacf_ax)
    [ax.set_xlim(0) for ax in [acf_ax,pacf_ax]]
    sns.despine()
    plt.tight_layout()
    return ts_ax,acf_ax,pacf_ax

tsplot(stock_diff,title='stock')


确定好p、d、q之后我们就可以用ARIMA模型进行预测了。

6、ARIMA模型预测

model = ARIMA(stock_train,order=(1,1,1),freq='W-MON')
result = model.fit()
pred = result.predict('20140609','20160201',dynamic=True,typ='levels')#开始时间必须包含在训练集内,预测的时间主要要看一下是否是预测时间点,因为这里我们取得是每周一,所以要注意预测的结束时间必须是每周一
print(pred)

我们这里画图展示一下,

plt.figure(figsize=(10,10))
plt.xticks(rotation=45)
plt.plot(pred)
plt.plot(stock_train)

红色的线是我们预测的时间段,与真实值比较发现,真实值偏低一点,预测值与真实值相比有差异,这也说明股市的凶险,很难能够预测准确。

时间序列ARIMA模型到这里就结束了,有不明白的同学可以在留言私信。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351