这部分内容工作中用到的比较少,比赛中常常用到,是提升模型效果的终极手段。而且融合模型越多,往往效果也是最好的。简单记录一下自己的学习过程。 基模型分别采用lgb和xgb,从8...

这部分内容工作中用到的比较少,比赛中常常用到,是提升模型效果的终极手段。而且融合模型越多,往往效果也是最好的。简单记录一下自己的学习过程。 基模型分别采用lgb和xgb,从8...
关于模型介绍,网上已经有许多,这里不再复制。不过目前来看,使用XGB算法,足够得到相当出色的模型效果了,因此也推荐大家直接学习xgb,然后是lightboost和catboo...
这一部分是特征工程,主要是数据处理以及变量衍生两大块内容。机器学习比赛中,发现一个好的特征,往往就能带来非常大的提升,因而在整个项目周期中,可以安排一半时间考虑特征工程相关的...
了解数据,为后续特征工程做准备。目的: 1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),变量分布,变量集中度。 2.了解变量间的相互关系、变量与预测值之...
参加datawhale 的活动,算是一种督促,也欢迎大家一起加入进行学习。比赛链接如下[https://tianchi.aliyun.com/competition/entr...