登录注册写文章

总结|公共自行车使用量预测

总结|公共自行车使用量预测

本篇文章主要对在本次竞赛中排名靠前的同学的优化方法进行总结。
东文，14.835 第47名
 冰琪，14.852 第50名
 继端，14.871 第57名
可自行点击上述文章详细了解他们的优化过程

一、前言

总的来说，三位同学都经历了这三个步骤数据处理，特征处理，调参，但各步骤内所使用详细的方法有所不同。
这里我对三位同学的优化过程做了思维导图，帮助大家迅速了解他们的优化过程。

二、相同点分析

优化思路相似

都使用了xgboost，并分三步走：数据处理、特征分析与处理、参数调整。（ps：东文同学在得知数据清理的很干净后就不再进行数据处理）
其中在特征分析中三位同学都进行了变量之间的相关性分析。
在参数调整的阶段，都有根据变量的重要程度和相关度来进行调整，最终确定最优的参数组合

三、差异点分析

3.1 不使用工具 VS 使用工具

这里的工具是指gridSearchCV (网格搜索)
在本次竞赛中，冰琪和东文都使用了gridSearchCV，而继端没有。

这带来的差异有
（1）冰琪和东文在前面所进行的数据处理和特征处理都成了“无用功”。最后他们两个都发现，不进行任何数据处理和特征处理的原始数据，利用gridsearchCV进行调参的结果最佳，RMSE值最小。(当然，实践出真知，也只有试过了才知如何达到最优，并不是否定冰琪和东文的做法，只是陈述这一事实)
（2）反观继端，他前面的每一步数据处理和特征处理都是有用的，数据和特征的处理的处理使得损失值从18.847降到了14.32。

（3）但最终经过调参后，使用网格搜索的冰琪和东文的排名都优于不使用的继端。

3.1.2 使用工具与不使用工具孰优孰劣？（gridSearchCV）

使用gridSearchCV

优点：gridSearchCV将自动调参和交叉验证结合起来，只要把参数输进去，就能给出最优化的结果和参数。
缺点：这个方法适合于小数据集，一旦数据的量级上去了，很难得出结果。
（tips:搭配坐标下降法调参可以减少这个缺点的影响，后面会有详细论述。）

Q:关于使用gridSearchCV过拟合的风险，我询问了东文。
东文：gridSearchCV本身就是结合了交叉验证的，是使用验证集来计算最佳分数（最佳分数的评判标准可以自己设置），所以过拟合的风险和平时自己划分训练集、测试集是一样的。

不使用工具

优点：优化的过程是完整而有条理的，每一步的是基于前一步的分析处理而来，更容易把握整个优化过程（数据处理和特征分析处理）
缺点：相比使用GridSearchCV而言是耗时耗力的，需要自己进行完善的数据处理、和特征分析处理。特别是在调参时，需要自己对影响力大的几个参数进行排列组合调参，最后得到这会占用非常多的时间和运行内存。

3.2 坐标下降调参vs遍历所有参数组合调参

东文和冰琪的选择：
使用一个快速调优的方法——坐标下降。
拿当前对模型影响最大的参数调优，直到最优化；再拿下一个影响最大的参数调优，如此下去，直到所有的参数调整完毕。

优点：省时省力、占用运行内存少
缺点：可能会调到局部最优而不是全局最优

继端的选择：
固定树的不同深度，同时对其他参数一起调整，遍历所有参数组合，返回损失值最小的参数参合，即最优参数组合。

优点：有可能调到全局最优（我认为继端还能继续优化，得到更好的成绩）
缺点：复杂度高，占用运行内存多，且耗时耗力

四、总结

首先，三位同学优化的结果是很棒的。
其次，我认为他们使用的方法可以互相结合。

具体来说：

东文和冰琪可以改进的地方有：

在数据处理的时候，选择删去重复值。（继端验证了这一步能够使得RMSE进一步下降）
在特征分析的时候，在相关性分析的基础上，应该增加对各特征的重要性进行分析，再对重要的、相关性高的特征单个拎出来分析（如继端就进行了时间特征分析、温度特征分析、风速特征分析），这会对后续的调参有非常大的参考帮助。
要进行健壮性分析、异常处理。这里东文和冰琪都没有考虑到，然而这是一个重要的点，这一步同样能使得RMSE下降。

继端可以改进的地方有：

在数据处理，可以对离群点进行分析和处理，删除离群点，可能对于模型的优化有益。
可以试着结合gridSearchCV，帮助节省前面大量的调参工作，达到局部最优后，再继续用你原有的方法进一步调参，努力靠近全局最优，最终得到最优参数组合。

以上都是我个人的拙见，仅供参考，希望对大家有帮助~

最后编辑于：2020.06.06 00:12:56

©著作权归作者所有,转载或内容合作请联系作者

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,198评论 6赞 514
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,334评论 3赞 398
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,643评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,495评论 1赞 296
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,502评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,156评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,743评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,659评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,200评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,282评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,424评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,107评论 5赞 349
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,789评论 3赞 333
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,264评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,390评论 1赞 271
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,798评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,435评论 2赞 359

1赞2赞

赞赏

手机看全文