竞赛1-阿里天池-口碑客流量预测-题解总结

372/4046
赛题描述
https://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.WkzvDo&raceId=231591
给出过去16个月的口碑数据,2k商家,包括商家类型、用户支付行为、用户浏览行为,用这些数据来预测各个商家在接下来14天(11.01-11.14)每天的客流量。

评价指标
shop_info
user_pay
user_view

难点可视化时发现

  • 这其中包含双十一和国庆节的客流预测。但仅有三分之一的商家有去年双十一的信息
  • 每个商家开始加入口碑的时间不一,最晚从10月份开始
  • 近三个月有的商家记录不全

</br>
冠军题解
@CAT https://tianchi-gitlab.aliyun.com/race231591/gitlab-u2323
用了适合一般时间序列问题的时间序列加权回归模型(SJH)
将2016.10.11-2016.10.31及2016.9.20-2016.9.26共计28天作为训练时间段。选择了2016.10.18到2016.10.31共计14天、全部2000个商家的客流量作为线下测试集。排除了国庆节的干扰。
均值法,但不是简单的把训练集的均值当做回归,而是遍历,用Loss确定最佳回归值。
加权

  • 权重一:越靠近测试时间段的样本的权重越大
  • 权重二:对于一个商家,越远离该商家开始营业的时间的样本的权重越大。
  • 权重三:周期(一)(这部分没太看懂。。

</br>
第三名题解
drop-out的团队用的是knn,根据官方的测评标准SMAPE作为knn的距离,从历史数据中寻找最相似历史片段进行预测填充。同时他们队将数据以一周为单位聚合,每天的具体数据是以占一周百分比的形式保存。

</br>
第四名题解
https://tianchi-gitlab.aliyun.com/race231591/gitlab-u3844?spm=5176.836600.0.0.it2qKD

  • 数据预处理
    数据清洗包含三部分,通过规则清除,通过模型预训练清除及仅保留销量统计信息。
    1 )规则清除:比如单个买家异常消费,或对于一家店铺销量以历史过去14天销量的μ±2σ为限制,其中μ为均值,σ为均方根,以排除异常的销量数。
    2)通过模型预训练清除:商家日销量,可能存在一些难以预计的大幅波动,如促销,商家停业等。对于这些规则难以清除的异常值,采用预训练的方式清除。模型训练中首先采用欠拟合的算法模型预训练,并清除残差最大的10%(xgboost1,GBDT)和25%(xgboost2)的样本。
    3)仅保留销量统计信息:剔除用户ID。

  • 预测模型
    多套gradient boosting:xgboost1,xgboost2, GBDT
    历史均值+knn
    双十一修正:仅有约1/3的商家存在2015年双11的销量记录,需要通过这部分商家去年双11信息,预测其余商家双11销量表现。
    采用xgboost单模型训练,由于双11当天对应的工作日不同,2015年数据并不能很好反映出2016年双11节假日情况,且超市便利店类商店存在大量的数据缺失。为防止过拟合,参数设置均较为保守,最大深度为2,且加了较大的正则项,具体如下: max_depth = 2, learning_rate=0.01, n_estimators=500, reg_alpha=10, gamma = 1

  • 模型融合
    调整多套gradient boosting系数,得到的结果再和均值模型融合。最后对双十一模型进行微调。

</br>
第十六名题解
https://github.com/RogerMonkey/IJCAI_CUP_2017
用到的模型:ARIMA,GBDT,LR,RF,Extremely Randomized Trees
关于Extremely Randomized Trees的博客:http://blog.csdn.net/zhaocj/article/details/51648966

</br>
自己的思路 -- 372名
最后来说说自己的思路吧,也跟大神们的题解对比对比,找找不足。
这次比赛和@lyq组队,是我除了练习赛外参加的第一个数据竞赛,我们想到这首先是一个时间序列的回归问题,通过查找资料了解到处理时间序列常用的两周算法:STL分解和ARMA。
STL是Seasonal and Trend decomposition using loess局部加权回归作为平滑方法的一种时间序列分解方法,分解结果又sensoanl部分,trend部分和remainder三部分。
而ARMA是Auto-Regressive and Moving Average Model。对于非平稳序列(如本题)需要差分或二阶差分后再应用。
我们分工一个人做STL分解,一个人构造平稳序列使用ARMA,发现后者效果对于本题不好。所以我们采用了STL分解。


首先可视化发现,国庆部分的销量异常,双十一部分也有变动,所以首先从trainset中把国庆部分去掉。然后发现有的店是平日客流高峰,有的是周末高峰。
通过观察把商家最后分为四类:(根据数据缺失情况和客流情况)

  • 近三个月有缺失值的商家
  • 只有近三个月完整记录的商家
  • 春节后有完整记录,且周末高峰的商家
  • 春节后有完整记录,且平日高峰的商家
    节假日注意调休安排
    Clustering_by_pattern.py

分类高峰就是统计工作日和周末,然后看哪个日均多。Feature_holiday_workday.py
是否有缺失值就是规则统计



数据缺失严重的填了均值。
STL分解需要预处理,不然影响很大。异常点去除:规则去除+手动过一遍



分解后就要分别对得到的几部分做回归预测。季节性部分不变。trend用了LR,前n星期线性组合,GBDT。残差试了一下天气拟合。



双十一是怎么处理的。
线下测评就是往前推了两周。

统计每天每个店铺的平均view量和pay量,作为特征
user_view.py
user_flow.py
user_flow_clsddification.py 回头客(>5次)

加上所在位置、人均消费、评分、评论数、门店等级、一级品类作为特征

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,104评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,816评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,697评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,836评论 1 298
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,851评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,441评论 1 310
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,992评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,899评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,457评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,529评论 3 341
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,664评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,346评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,025评论 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,511评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,611评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,081评论 3 377
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,675评论 2 359

推荐阅读更多精彩内容

  • 做淘宝真的要刷单么?那些所谓的七天螺旋,如果你一个新开的店,没权重没流量,不刷单哪来的螺旋给你? 淘宝大环境下,小...
    我是盼盼呢阅读 9,739评论 1 16
  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,515评论 4 65
  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 3,887评论 1 10
  • 小时候谁都希望自己的将来闪闪发光,但是长大以后,自己的梦想,却没有一个能变成现实。 ...
    风呼嚓嚓阅读 342评论 3 3
  • 喜欢北方的冬天,银装素裹的大地和村庄,让人静谧和沉静,今年是来北方的第十年,从最初的盼望回到南方到现在的适应和喜...
    清晨暮雾阅读 187评论 0 0