[kaggle]DC比赛进程5

  • 本周开始试了下高德的路径规划导航,虽然效果很差,但其中有一些借鉴意义,可以作为备选的特征放到后期的model中。例如,路径的导航距离、预估时间等;
  • 后面在研究geohash做相同轨迹识别的工作,有一些资料了,明天有空整理一下共享,还有机器学习平台的选择,H2O(已搭建好)/Caffe/TensorFlow,在这里需要补充下接下来整体的model过程:

数据清洗:载客状态的真实性、GPS的连续性(因为现在预估不出这两问题造成的影响,可以先跳过,先做第二步)
数据抽取:选取和预测目标轨迹相同的行程(Q:相似轨迹识别算法?单用户筛选or全体筛选?这里本来一开始是打算直接学习全量数据,得到任意两点的时间预测模型(不可行,kill))
特征工程:特征选择(各种论文都试试)
训练模型:基于机器学习平台做算法的选择(这部分都是套路,除非去做深度神经网络)
模型迭代:不断重复上两步,直到以优异的成绩进入复赛O.O

R:Kaggle_Taxi_Trajectory
py:kaggle-taxi-ii
R:kaggle-taxi-II-1
突然想了下,为什么不去直接找kaggle,taxi:

不要抢,大家都有份儿

我来承担8个R的项目的研读,注意只要时间预测,不要看目的地预测的项目。(待会分一下,还有两个notebook的,完美)。注意:只看算法,如果作者有文档说明,就劲量不要去研究没有注释的代码(别问我为什么)。

行程选择部分应该是这个模型里最重要的问题了,选取什么样的数据来做预测?
关于行程选择部分的两个忧虑:

  1. 算法复杂度太高,如果全体搜索时间长,效率低?
  2. 选择后的数据样本不太大。不足以支持机器学习,过拟合现象严重。效果差?
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容