特征选择技术

基于考察变量与结果关系、提高结果匹配度或者是减少数据量的需要,我们有时候要对数据报表中的各个特征或自变量进行筛选。

特征筛选是机器学习技术的核心概念之一,筛选重要特征、摒弃不相关或相关性低的特征在很多情形下能够显著提高模型的预测效率和水平。

总体来说,对数据进行特征筛选有​以下几点好处:

  • 减少过拟合
    更少的冗余信息有利于避免模型在噪音干扰信息上做过多训练

  • 提高预测水平
    更少的误导性信息有利于模型预测水平的提高

  • 节省时间、降低计算资源消耗
    精简过的数据有利于降低算法模型复杂度

需要进行特征筛选的情形有很多,比如考察手机尺寸、处理器、RAM、屏幕分辨率、摄像头清晰度、材质、品牌等特征中哪些与售价相关性最高时;比如研究化学谱图中哪些峰信号去掉有利于提高拟合结果R方值时;比如某天人类懒癌爆发觉得26个英文字母嫌多,想要从数学角度研究去掉哪个字母对当今世界产生的影响最小时...

数据种类和应用场合千变万化,相应的特征筛选方法不一而足,这里列出常用的5种方法作为参考。

  1. 手动初筛

对于明显冗余、样本差异小或与输出结果不相关的特征,直接手动筛除,将有助于提高模型的预测效率和水平。比如前面考察手机价格影响因素的案例中,有两种尺寸信息,一种以英寸计,一种以厘米计,虽然两者列示的值不同,但实际代表的内容并没有差别,这就造成了数据冗余,给预测模型带来不必要的干扰。还有如果百分之九十九的样本尺寸这一项值都是6英寸,那么以这些样本考察尺寸与价格的关系是不大合适的,要么增加其它尺寸的样本,要么让预测模型直接不考虑尺寸这一特征。另外,如果影响因素中有类似“手机支不支持用来打乒乓球”这样明显与售价不相关的特征,可以直接手动删掉。

  1. 暴力计算

本方法适用于数据量和特征数目不大的情形,拥有大量闲置计算资源的可以直接无视这一限制。该方法的流程是依次拿掉某个特征的数据,然后用剩下的数据训练模型,预测效果最好的情形所对应的那个被排除的特征,即被标记为与目标值y相关性最低,然后用剩下的数据重复上面的步骤,依次标记相关性第二低、第三低...本方法的优点是原理简单,而且不受预测模型具体类型限制,可以把能找到的算法用上面的逻辑都过一遍以寻找最优解。缺点嘛,自然是费时费电。

  1. 卡方检验

卡方检验(\chi^{2}=\sum_{i=1}^{k} \frac{\left(f_{i}-n p_{i}\right)^{2}}{n p_{i}},k:自由度;n:样本数;p_i:理论分布概率;f_i:实际分布在特定范围内的样本数)是单变量检验方法中常用的检验类型。通过计算样本各个特征下数据的卡方值,卡方检验可以得到各个特征与目标的相关性水平。卡方值越大,相应特征越不可能独立于结果y,亦即对结果的贡献率越高。卡方检验的优点是不需要复杂的算法和大量的训练,计算速度快;缺点是只适用于离散分布数据的分类任务,不能用在连续数据或者是预测价格这样的回归任务上。

  1. 相关系数

通过对矩阵数据集进行各种分布(Pearson,Kendall,Spearman等)的相关系数计算,可以直接得到包括预测结果y在内的两两特征之间的关联度(pairwise correlation)。对结果做热点图可以很直观地看到特征之间地关联性,比如下图中,看最上面一行或最后一列,就可以了解结果y受哪些特征影响更大,在后续考察分析的时候可以更侧重于这些特征:


热点图:颜色越深,特征之间相关性越高

另外,降维算法主成分分析在降维的过程中经历了协方差的计算,积累了各个特征的载荷(loadings)信息,所以也能为特征筛选提供依据。

  1. 基于决策树的方法

基于决策树的算法模型会在机器学习过程中对各个特征打分,得到具体的权重信息,可以用于特征筛选。比如有大量对应于不同的组分含量y的光谱数据X,可以用基于决策树的随机森林或同类其它算法从数据集中挖掘哪些峰信号对含量y贡献率高,哪些信号是无关的噪音。通常来讲,光谱数据中特征信号只是其中很小的一部分,所以最终各个特征的累积权重形如下图:


特征累积权重趋势图

​按照图的这种情形,可以实现百分之八十以上的无关噪音数据的去除,提高模型预测水平。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容