登录注册写文章

[kaggle]DC比赛进程5

[kaggle]DC比赛进程5

本周开始试了下高德的路径规划导航，虽然效果很差，但其中有一些借鉴意义，可以作为备选的特征放到后期的model中。例如，路径的导航距离、预估时间等；
后面在研究geohash做相同轨迹识别的工作，有一些资料了，明天有空整理一下共享，还有机器学习平台的选择，H2O（已搭建好）/Caffe/TensorFlow，在这里需要补充下接下来整体的model过程：

数据清洗：载客状态的真实性、GPS的连续性（因为现在预估不出这两问题造成的影响，可以先跳过，先做第二步）
数据抽取：选取和预测目标轨迹相同的行程（Q：相似轨迹识别算法？单用户筛选or全体筛选？这里本来一开始是打算直接学习全量数据，得到任意两点的时间预测模型（不可行，kill））
特征工程：特征选择（各种论文都试试）
训练模型：基于机器学习平台做算法的选择（这部分都是套路，除非去做深度神经网络）
模型迭代：不断重复上两步，直到以优异的成绩进入复赛O.O

之前给大家的四个资源中，PKDD的第二个比赛是最接近的，除了张洋和我上传的两篇文章外：可以到比赛的论坛找些灵感来源：
https://www.kaggle.com/c/pkdd-15-taxi-trip-time-prediction-ii/forums/t/14988/method-sharing
通过昨天的地毯式搜索，找到了一些开源的代码。需要有人研读一下，总结下其中的算法，特别是轨迹识别，和复用价值：

R:Kaggle_Taxi_Trajectory
py:kaggle-taxi-ii
R:kaggle-taxi-II-1
突然想了下，为什么不去直接找kaggle，taxi：

不要抢，大家都有份儿

我来承担8个R的项目的研读，注意只要时间预测，不要看目的地预测的项目。（待会分一下，还有两个notebook的，完美）。注意：只看算法，如果作者有文档说明，就劲量不要去研究没有注释的代码（别问我为什么）。

行程选择部分应该是这个模型里最重要的问题了，选取什么样的数据来做预测？
关于行程选择部分的两个忧虑：

算法复杂度太高，如果全体搜索时间长，效率低？
选择后的数据样本不太大。不足以支持机器学习，过拟合现象严重。效果差？

最后编辑于：2017.12.04 16:00:47

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

[3/4]我所经历的大数据平台发展史（三）：互联网时代 • 上篇
//我所经历的大数据平台发展史（三）：互联网时代 • 上篇http://www.infoq.com/cn/arti...
葡萄喃喃呓语阅读 51,553评论 10赞 200
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Ch...
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1) 注...
Albert陈凯阅读 22,622评论 9赞 477

Kaggle比赛：从何着手？
介绍参加Kaggle比赛，我必须有哪些技能呢？你有没有面对过这样的问题？最少在我大二的时候，我有过。过去我仅仅...
马力_Panotech阅读 51,918评论 2赞 71
面向开发人员的机器学习指南
首页资讯文章资源小组相亲登录注册首页最新文章 IT 职场前端后端移动端数据库运维其他...
Helen_Cat阅读 9,444评论 1赞 10
各个版本的Xcode下载
下载各个版本的Xcode，千万不要去百度等乱七八糟的网址下载，一个是慢的要死，一个是存在一定的风险，就像2015年...
Smallwolf_JS阅读 3,863评论 0赞 0

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文