特征选择的好处
便于理解和可视化数据,降低计算及存储压力,对抗维数灾难提高准确率,增加模型泛化能力;
总结一
- 三大主流方法:过滤式,包裹式,嵌入式;
- 过滤式:对特征重要性(方差,互信息,相关系数,卡方检验)排序选择,独立于模型;
- 包裹式:确定模型和评价准则之后,对特征空间的不同子集做交叉验证,进而搜索最佳特征子集;如前向后向贪婪搜索策略;
- 嵌入式:将特征选择和训练过程融为一体,例如决策树,L1正则化;
总结二
- 线性判别分析法(LDA),一种监督学习的降维技术;
- 主成分分析法(PCA);
- 相关系数法 使用相关系数法,先要计算各个特征对目标值的相关系;
- 构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征;
- 通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性
(分别使用L1和L2拟合,如果两个特征在L2中系数相接近,在L1中一个系数为0一个不为0,那么其实这两个特征都应该保留,原因是L1对于强相关特征只会保留一个); - 训练能够对特征打分的预选模型:RandomForest和LogisticRegression/GBDT等都能对模型的特征打分,通过打分获得相关性后再训练最终模型;(gbdt.feature_importances_)
- 方差选择法计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征;
- 卡方检验 经典的卡方检验是检验定性自变量对定性因变量的相关性;
- 互信息法 互信息法经典的互信息也是评价定性自变量对定性因变量的相关性的;
- 通过特征组合后再来选择特征:如对用户id和用户特征最组合来获得较大的特征集再来选择特征,这种做法在推荐系统和广告系统中比较常见;
- 通过深度学习来进行特征选择;
- 传统用前进或者后退法的逐步回归来筛选特征或者对特征重要性排序,对于特征数量不多的情况还是适用的。