特征选择特征过滤

特征选择
特征选择的一般过程是这样的,首先是从特征全集中产生出一个特征子集,筛选过程采用某种评价标准,把符合标准的特征筛选出来,同时对筛选出来的特征进行有效性验证。

产生特征子集一般是一个搜索的过程,搜索空间中的每个状态就是一个特征子集,搜索算法分为完全搜索,启发式搜索和随机搜索。
特征选择的过程可分为,特征过滤,wrapper及embedded。

特征过滤
特征过滤是选定一个指标来评估特征,根据指标值来对特征进行重要性排序,去掉达不到指标的特征,评价指标包含方差,相关性,信息增益等。

基于方差的特征过滤:计算每个特征的方差大小进行排序,然后按照特定的阈值或者特征个数进行筛选,方差的大小实际上表示的是变量所含有的信息量,方差较小可能的表现是变量的取值比较单一,对于我们区分目标变量的用处不大,因而可以选择剔除。

相关性特征过滤:计算各个特征对目标特征的相关系数以及相关系数的P值,选择显著性高的特征。

基于信息增益的特征过滤:计算包含每个特征带来信息增益的大小,并以此来判断每个特征对于我们分类器所提供信息量的大小,信息增益越大,说明该特征对于分类结果正确提供的帮助越大。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容