时序预测之一_概述

1. 说明

 前一段参加了天池的“盐城汽车上牌量预测“比赛。第一次面对大规模的时序问题,从比赛的过程,到赛后各位大佬的算法分享,收获很多。也将解决该类问题的套路在此总结一下。
 本篇是总述,其中提到的具体算法,如:加窗,ARIMA,傅里叶/小波变换,LSTM等等将在本系列的后续文章中一一详述。

2. 问题描述

 上牌量预测是一个典型的时序问题,且数据简单清晰,以复赛A榜数据为例,它提供了前3年的10种品牌汽车每天的上牌量,预测未来半年中每天的各品牌的上牌量。
 提供的信息只有之前的上牌量,日期数据和星期几,是一个单变量的预测问题(暂不计各品牌间的相互影响),比较困难的是:它不是预测一天,而是预测几百天,有些时序模型无法使用。

3. 步骤

 对比一下自己和大家的解决方案,基本都可以拆解成以下步骤

(1) 还原日期

 比赛数据对日期进行了脱敏处理,没给具体年月日,但提供了周几的信息,其中有些节假日上牌量为0的也没有给出对应记录。第一步大家都补全了日期,加入了真实日期,和节假日信息。
 这里介绍两个相关阴历的时间转换库:
chinese_calendar,Lunar-Solar-Calendar-Converter

(2) 从日期中提取信息

 这是各显神通的环节,大家根据自各经验,提取了各种各样的特征,总结如下:
 假期长度、调休日期、与节假日的时间距离;
 某年中的第几个月,某年有的第几周,某月中的第几周,某月中的第几日,某年中的第几日(阴历/阳历分别取),正数/倒数第几个工作日。

(3) 提取周期信息

 对于周期提取,基本有两种做法,一种是手工计算出同比,环比,往期数据,直接加入Feature,然后用GBDT生成决策。另一种是用ARIMA预测出大致的周期趋势,然后用GBDT描述其余细节。

i. 手工加入周期数据

 有一些方案完全没使用趋势和周期算法,排名也挺靠前的,其原因是,他们直接把周期和统计数据做成了特征,比如:用shift()把前N天的上牌量做为当天的特征,用rolling()将前N天均值作为当天特征,将阴历/阳历的去年同期(月、周)数据作为当期特征,环比的最大值,最小值,分位数等等。这种方法的好处是模型可以同时处理维度的各种特征,美中不足是可能损失一些对趋势的预测。

ii. 算法预测周期和趋势数据

 此类方案以ARIMA代表,ARIMA,小波变换,线性拟合,它们是解决时序问题的传统方法。再与GBDT算法相结合,处理一些不能被周期性识别的细节。这种方法的优点是兼顾整体和细节,问题时在预测长周期时,后期有严重的衰减。

(4) 梯度下降决策树

 几乎所有的人都使用了梯度下降决策树(GBDT)类算法和交叉验证(CV),值得注意的是,有一些特征需要处理成“类别”而非“数据”,比如“月份”,“周几”,“品牌”等等,否则很影响效果。

4. 原理

 对于时序问题,一般可以拆解为:趋势+周期+突发事件。

(1) 趋势

 一般需要先拟合趋势,比如使用:滑动平均模型,指数平均模型,线性回归等等。其中需要注意的是拐点的识别(不限于此题),比如一些股票缓涨急跌,即它在上升和下降的趋势中规律完全不同,则需要分段处理。另外我理解,趋势有含有两部分,一部分和均值相关,一部分和方差相关。均值描述位置的高低,方差描述波动的大小。

(2) 周期

 这里指的周期是大周期,中周期,小周期,相互交错,包含的情况。比如年内变化,周内变化都呈明显周期性。一般可使用:季节模型,小波/傅里叶变换,差分周期等等。我觉得ARIMA也可算做一种周期性工具,它的主旨也是用过去的N项预测未来。
 周期与趋势的组合,又有交乘和叠加等不同方式。

(3) 突发事件

 现在一般都用机器学习的工具处理突发事件和结果的关系,比如随机森林,梯度下降决策树,还可能用到关联规则等等。

(4) 扩展

 不只是时序问题,其它的机器学习问题也是一样,比如说大分类包含小分类这种情况,也类似于周期。都需要去考虑统计特征。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,711评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,079评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,194评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,089评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,197评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,306评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,338评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,119评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,541评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,846评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,014评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,694评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,322评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,026评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,257评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,863评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,895评论 2 351

推荐阅读更多精彩内容