背景
为什么用进行特征选择,个人理解主要包括以下几个方面:
1、减少特征数量可以防止维度灾难,降低算力的负担,减少训练时间;
2、增强模型泛化能力,降低模型过拟合的风险;
3、增强模型对特征维度和特征值的理解。
方法
特征选择的方法有很多,这里就基于sklearn中集成的feature_selection方法来进行讲解。
1、删除低方差的特征
先解释以下什么是“低方差”,所谓的低方差,也就说在一堆样本,计算所得到的方差值比较低,意味着这些样本的分布比较集中。同比,“高方差”也就是样本分布比较分散。而低方差特征删除的方法就是预先设置了某一个阈值,然后计算所有样本中不同特征的方差,将计算所得未达到阈值的特征进行剔除。也就是说保留下来的都是“高方差”(离散程度较高)的特征。
举个例子,假如我们有一个基于伯努利分布(0、1分布)的数据集,我们想要删除70%以上相同特征值的数据特征列(比如70%都是0),这里有个前提,我们认为样本重复的越多,特征对模型最终贡献度越低,所以要把这些特征删除。因为是基于伯努利分布,所以使用的方差计算方法采用如下公式:
基于公式和目标,我们的方差计算方法为0.7 x (1 - 0.7)。sklearn中调用的方法为“VarianceThreshold”。
2、单变量特征选择
sklearn给出的解释是我们可以把该方法理解为估算器的预处理步骤,然而对该解释我表示我很迷(内心千万只***奔腾而过)。然后往下看,发现官方给出了几个单变量选择的方法,如下所示:
1、SelectKBest :该方法需要传入两个参数score_func(特征打分结果),k(倒排后选择特征数量)
2、SelectPercentile :该方法需要传入两个参数score_func(特征打分结果),percentile(倒排后选择特征百分比)
3、GenericUnivariateSelect:该方法需要传入两个参数score_func(特征打分结果),mode(单变量统计检验方式),param(超参)
其中1和2中的特征打分方式官方已经进行了集成,只是需要玩家自行进行区分即可,结果如下:
对于回归:f_regression,mutual_info_regression
对于分类:chi2,f_classif,mutual_info_classif
第三种方法重的mode官方也给出了内置的方法{'percentile','k_best','fpr','fdr','fwe'}。
上述方法中的细节若展开内容太多,不是本篇幅的重点,若有需要请自行官网获取。
这里官网给出了一个重要的警示⚠️ :当心不要在分类问题上使用回归评分功能,您将获得无用的结果。
3、递归特征消除
先说一下“特征消除”,也就是通过某种方法对原有的特征进行剔除,然后使用剩下的特征。基于上述的条件下,引入递归的概念,也就是通过逐层筛选的形式,一个一个的将特征进行剔除。只不过这里不是随机删除,而是采用了特定属性(特征权重或特征重要度)的形式对其中影响因素不大的特征进行逐步剔除。这里官网采用的是RFE模型对其进行筛选,该模型对特征保留的方法主要是通过预设需要保留的特征数量或特征计算得分阈值来对特征进行保留判断。由于是采用的递归,该方法也可操作每一次迭代中需要删除的特征数量或需要删除的特征百分比来进行设定。具体的操作方法可参考递归特征消除API。
而上述方法中有一个较大的弊端,就是人工提前的预设。如果我们不能很好的制定预设值,最终的剔除结果可能也不是最优的。官方给出了基于RFE的演进方法RFECV,也就是基于CV(交叉验证)的RFE。使用RFECF的时候,我们可以提前预设交叉验证的数量对RFE进行特征交叉计算,其交叉验证的方法可采用StratifiedKFold(KFold变种)进行计算,以达到自动计算最终需要保留的特征数量。
4、使用SelectFromModel特征选择
顾名思义,想要知道选择哪些特征,就需要通过模型训练之后才能知道。例如官网给出的例子,先使用数据集通过某个模型(lasso)进行训练得到训练的模型,再通过调用SelectFromModel方法传入模型,并预设想要保留的特征数量,在进行SelectFromModel计算,通过调用get_support方法就能够获取到最后计算出来的特征。官方还给出了另一个方法SequentialFeatureSelector,该方法采用前向或后项的贪心算法形式对特征进行交叉计算,并根据每一次计算的得分进行特征保留。
5、使用管道(pipeline)结合特征选择与模型
这里就不做解释了,直接上代码
clf = Pipeline([
('feature_selection', SelectFromModel(LinearSVC(penalty="l1"))),
('classification', RandomForestClassifier())
])
clf.fit(X, y)