Kaggle比赛整体思路

image.png

整体思路

  • 看比赛背景,比赛评分方式,主办方对数据字段的解释;

  • EDA。做数据探索,通过可视化等找到数据中的异常点,熟悉数据;

  • 性能优化。包括原始数据类型的优化以降低内存占用与存储等,节约时间;

  • 做好特征工程后,建立一个baseline。先做一个最基本的模型;

  • 确定一个好的cv策略;

  • 根据模型表现对症下药,找到问题所在,实施相应的特征工程方法衍生新的特征;

  • 最后感觉特征工程进行不下去使用stacking等集成方法与技巧来上分

注:从csv读取的数据类型会自动识别,要注意看比赛给的字段的数据类型,如果存在差异,要自行转换。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容