第一赛季 372 / 2529 , MSE: 0.05654
赛题介绍
赛题:https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100067.5678.1.47f128938Byxnw&raceId=231633
给出500条半导体产品的加工参数和最终一个指标Y,需要根据测试集的100条加工参数来预测出最终的指标Y的数值。评价标准是MSE均方误差。每个产品加工参数有8000+条,代表不同工序,这些工序分别在八个工作台上进行,可能存在数值漂移等问题。所有特征名称均已脱敏。这是一个典型的高维小样本回归问题。
特征工程
因为特征远远大于样本数,首先先想到把一定能去除的特征去掉后再看特征数。所以首先去除了:
- 整列variance=0的特征
- 整列NA>0.80的特征
这样删除后还剩3000+特征,还是过大,需要继续删除。
在探索过特征与Y的相关系数后发现,很多特征与Y的相关系数非常小,所以暂定删除 corr<0.2 的特征。
之后看还有没有特殊的特征需要删除或处理,发现有8个obj类型的特征,代表工作台,所以用one-hot对这些特征进行独热编码。
发现有几列特征的数值过大(>e13),打印出来后发现是代表日期,暂定生产质量只与工作参数有关,所以把这些日期参数删除。
横向来看检查每行的缺失值比例,删除>0.95缺失的行。(最终发现所有行都不满足这个条件)
一共500行,ID.unique()只有499,说明有一个ID出现了两次,调出观察发现这两条样本的ID和Y值相同,但第二条的特征缺失很多,推测应该是进行了返修之类的操作,所以把ID重复的第二条样本删除。
这样操作后还剩200+条特征。
最后填补缺失值用的是中位数填补。一般方法是均值、中位数、和knn填补。由于都是同一种产品,工序和生产参数标准应该相同,就选择了中位数填补。(但是后来想了想应该用日期+工作台结合来填补。)
模型选择
因为高维小样本,很大的一个问题就是过拟合。首先想到了gbdt/xgb、SVR 和 LR模型。gbdt可以有效防止过拟合,而SVR、LR很适合高维的回归问题。
验证方法我用的是k-fold,将500条样本先留出100条作为模型评估验证集,剩下400条四折交叉验证来选参。在这个环节我也遇到了这个赛题的一个最大的难题,就是无法在线下找到一个合适的评估方法。我用的是和线上一样的MSE来评估,但是训练后的模型线下效果很好,线上效果差的比较多。导致在选参和选模型上有比较大的困难。(我相信这也是很多赛友遇到的问题,因为在AB榜切换时排名发生了很大的变化,在我看来是因为大家都没有找到合理的线下评估方法,过于依赖A榜的线上结果作为评估依据,导致模型是对A榜过拟合的)。
结合自己线下平分和A榜成绩,我最终选择了LR作为模型。SVR的效果并不好,我想可能是因为SVR对于支持向量的参数要去比较高,而原本样本的缺失值较多,无法很好的支持边界。
心得
这是我第一次做这么高维数和这么小样本的赛题。做完之后对于GBDT、XGB算法理解更深了些。但对于这样的数据怎么在线下构建评估函数仍是一个难题,等决赛结束后看过题解再来补充。
第一名题解 @笨笨的粽子妞,北京中油瑞飞信息技术有限责任公司。
https://tianchi.aliyun.com/forum/new_articleDetail.html?spm=5176.8366600.0.0.23a9311foJQqYL&raceId=231633&postsId=4020
缺失值填充:填充值为同种工具非0值的平均值。
特征选取:
- 将计算单因子和双因子交互列并纳入备选特征;
- 需要对特征进行最初的筛选。目前的方法是计算各列与特征值Value的pearson相关性,选取相关性较高的进行保存。
模型选择:
- 初赛阶段,曾尝试过许多模型,包括SVR、Lasso、 GBDT、XGB,以及模型融合等,经过在初赛和复赛的多模型比较,利用数次提交结果进行模型比对,最终将Lasso、GBDT和XGBoost纳入到值得考虑的单模型中。
- 最终,我是使用XGBoost在最终版特征数据,调参后产出了TestB的预测结果。对TestB预测利用了train和TestA的全部单、双因子数据,没有降维。将单双因子数据、train和TestA拼接后,对合计5181维数据进行训练,选用参数如下:
params = {
'reg_alpha': 0.001,
'silent' : 1,
'booster': 'gbtree',
'objective': 'reg:linear',
'eta': 0.01,
'max_depth': 2,
'subsample': 0.5,
'min_child_weight': 1,
'colsample_bytree': 0.3,
'eval_metric': 'rmse',
'gamma': 0,
}
num_boost_round = 40000
在上述参数下,约30000次能够接近稳定。最终,利用训练完毕的模型对TestB进行预测,产出本次复赛最终提交的输出结果。
(所以第一名也没有构建线下评估模型