
image.png
整体思路
看比赛背景,比赛评分方式,主办方对数据字段的解释;
EDA。做数据探索,通过可视化等找到数据中的异常点,熟悉数据;
性能优化。包括原始数据类型的优化以降低内存占用与存储等,节约时间;
做好特征工程后,建立一个baseline。先做一个最基本的模型;
确定一个好的cv策略;
根据模型表现对症下药,找到问题所在,实施相应的特征工程方法衍生新的特征;
最后感觉特征工程进行不下去使用stacking等集成方法与技巧来上分
注:从csv读取的数据类型会自动识别,要注意看比赛给的字段的数据类型,如果存在差异,要自行转换。