竞赛4-阿里天池-智能制造质量预测

第一赛季 372 / 2529 , MSE: 0.05654

赛题介绍

赛题:https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100067.5678.1.47f128938Byxnw&raceId=231633
给出500条半导体产品的加工参数和最终一个指标Y,需要根据测试集的100条加工参数来预测出最终的指标Y的数值。评价标准是MSE均方误差。每个产品加工参数有8000+条,代表不同工序,这些工序分别在八个工作台上进行,可能存在数值漂移等问题。所有特征名称均已脱敏。这是一个典型的高维小样本回归问题。

特征工程

因为特征远远大于样本数,首先先想到把一定能去除的特征去掉后再看特征数。所以首先去除了:

  1. 整列variance=0的特征
  2. 整列NA>0.80的特征

这样删除后还剩3000+特征,还是过大,需要继续删除。
在探索过特征与Y的相关系数后发现,很多特征与Y的相关系数非常小,所以暂定删除 corr<0.2 的特征。
之后看还有没有特殊的特征需要删除或处理,发现有8个obj类型的特征,代表工作台,所以用one-hot对这些特征进行独热编码。
发现有几列特征的数值过大(>e13),打印出来后发现是代表日期,暂定生产质量只与工作参数有关,所以把这些日期参数删除。
横向来看检查每行的缺失值比例,删除>0.95缺失的行。(最终发现所有行都不满足这个条件)
一共500行,ID.unique()只有499,说明有一个ID出现了两次,调出观察发现这两条样本的ID和Y值相同,但第二条的特征缺失很多,推测应该是进行了返修之类的操作,所以把ID重复的第二条样本删除

这样操作后还剩200+条特征。

最后填补缺失值用的是中位数填补。一般方法是均值、中位数、和knn填补。由于都是同一种产品,工序和生产参数标准应该相同,就选择了中位数填补。(但是后来想了想应该用日期+工作台结合来填补。)

模型选择

因为高维小样本,很大的一个问题就是过拟合。首先想到了gbdt/xgb、SVR 和 LR模型。gbdt可以有效防止过拟合,而SVR、LR很适合高维的回归问题。

验证方法我用的是k-fold,将500条样本先留出100条作为模型评估验证集,剩下400条四折交叉验证来选参。在这个环节我也遇到了这个赛题的一个最大的难题,就是无法在线下找到一个合适的评估方法。我用的是和线上一样的MSE来评估,但是训练后的模型线下效果很好,线上效果差的比较多。导致在选参和选模型上有比较大的困难。(我相信这也是很多赛友遇到的问题,因为在AB榜切换时排名发生了很大的变化,在我看来是因为大家都没有找到合理的线下评估方法,过于依赖A榜的线上结果作为评估依据,导致模型是对A榜过拟合的)。

结合自己线下平分和A榜成绩,我最终选择了LR作为模型。SVR的效果并不好,我想可能是因为SVR对于支持向量的参数要去比较高,而原本样本的缺失值较多,无法很好的支持边界。

心得

这是我第一次做这么高维数和这么小样本的赛题。做完之后对于GBDT、XGB算法理解更深了些。但对于这样的数据怎么在线下构建评估函数仍是一个难题,等决赛结束后看过题解再来补充。


第一名题解 @笨笨的粽子妞,北京中油瑞飞信息技术有限责任公司。
https://tianchi.aliyun.com/forum/new_articleDetail.html?spm=5176.8366600.0.0.23a9311foJQqYL&raceId=231633&postsId=4020

缺失值填充:填充值为同种工具非0值的平均值。

特征选取:

  • 将计算单因子和双因子交互列并纳入备选特征;
  • 需要对特征进行最初的筛选。目前的方法是计算各列与特征值Value的pearson相关性,选取相关性较高的进行保存。

模型选择:

  • 初赛阶段,曾尝试过许多模型,包括SVR、Lasso、 GBDT、XGB,以及模型融合等,经过在初赛和复赛的多模型比较,利用数次提交结果进行模型比对,最终将Lasso、GBDT和XGBoost纳入到值得考虑的单模型中。
  • 最终,我是使用XGBoost在最终版特征数据,调参后产出了TestB的预测结果。对TestB预测利用了train和TestA的全部单、双因子数据,没有降维。将单双因子数据、train和TestA拼接后,对合计5181维数据进行训练,选用参数如下:
params = {

    'reg_alpha': 0.001,

    'silent' : 1,

    'booster': 'gbtree',

    'objective': 'reg:linear',

    'eta': 0.01,

    'max_depth': 2,

    'subsample': 0.5,

    'min_child_weight': 1,

    'colsample_bytree': 0.3,

    'eval_metric': 'rmse',

    'gamma': 0,

}

   num_boost_round = 40000

在上述参数下,约30000次能够接近稳定。最终,利用训练完毕的模型对TestB进行预测,产出本次复赛最终提交的输出结果。

(所以第一名也没有构建线下评估模型

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,717评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,501评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,311评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,417评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,500评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,538评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,557评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,310评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,759评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,065评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,233评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,909评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,548评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,172评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,420评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,103评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,098评论 2 352

推荐阅读更多精彩内容