kaggle预测车险

提升得分的关键是模型融合

  • 模型融合的方法,用不同模型的输出值,进行加权求和。
    这种方法的权值分配很难学习到
  • 定点化模型输出的概率值的精度(将小数点后的精度定电话),进行特征排序
  • 将输出模型进行映射,通过逻辑回归函数得到新的输出。
  • xgboost ,libffm模型的公式推导
  • 评价指标
    gni系数,ROC曲线下的AUC面积

数据预处理也应该是要考虑的一方面

  • 对于脱敏数据应该主要通过数据相关性判断来进行特征预判,判断是否存在数据相关性,可以对不同的数据进行不同的处理包括 binary,catergory,numerical数据,发现数据中隐藏的特征。以及编码方式。
  • 缺失值的处理始终是重要的一环。
  • 不仅仅可以通过rank来融合,而且还可以通过“boosting”, “bagging”。
  • 常见模型 boosting,xgboosting,lgbm,libffm
  • 模型融合的时候可以通过输出结果的相关性来衡量模型的相关程度。
  • 模型是无法处理字符型和时间型数据的,只能通过增加新的数据特征来产生新的特征。
    字符型:家乡所在地/学校所在地。这些都可以构建一个新的特征。可以将省份归类为新的类别特征(按照地域,或者消费水平)。
    数值型:可以根据毕业时间,注册时间,申请贷款的时间,来构建新的数值型变量,来预测
  • 同时对于输入数据比较多的情况下,可以考虑pca降维
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。