特征选择

在机器学习中,特征工程对于模型最终的性能影响非常大,好的特征工程可以给模型的性能带了很大的提升。而特征选择使特征工程中最重要的一个环节。
面对特征有成百上千的数据集,应该如何选择我们需要的特征呢?一种方法是基于对业务的理解,通过业务相关领域知识筛选出对预测目标影响最显著的特征;另外一种方法是通过统计学和机器学习特征选择算法筛选特征,这种方法不涉及领域知识,包括过滤法、包裹法和嵌入法三种思想。

1、过滤法

过滤法是在训练机器学习模型之前,通过设定特征评价指标阈值或设定要选择的特征数,来筛选特征。该方法不涉及机器学习模型的训练和评估。

  • 方差筛选
    该方法是最简单的。方差越大的特征,对模型的影响效果越显著。因此,可以选择方差大于某一阈值的特征来作为最终的特征。
  • 相关系数筛选
    对于数值型特征和因变量,可以通过计算两者的相关系数,并选择相关系数最大的特征。
  • 卡方检验
    对于非数值型特征和因变量,可以通过卡方检验的方式,筛选出对因变量影响最显著的特征。
  • 互信息(信息增益)
    类似与决策树中,选择互信息最大的特征。互信息越大,体现了利用该特征进行分类所得的不确定性信息减小的程度越大。
  • 相关统计量方法
    Relief是一种著名的过滤式算法,通过设计特征的相关统计量来度量特征的重要性。算法主要过程如下:
    (1)对有K个类别的数据集D进行s次抽样,分别得到s个子数据集。
    (2)对每个子数据集Ds进行遍历,对每个样本xi,找到该样本同类别k中的最近邻xi,nh,找到除类别k以外其他K-1个类别里的最近邻xi,l,nh(l≠k),然后基于属性j计算:

    其中,pl为其他k-1个类别组成的样本集合中,l类别所占的比例。离散值diff的计算,若属性相同为1,不同为0;连续值diff的计算,可以采用将数据规范化到[0,1]区间后的曼哈顿距离。
    (3)对所有样本的diff数据进行加和,得到对应于属性j的相关统计量δj

    (4)计算所有子数据集相关统计量δj的平均值,筛选出最大δj对应的特征。

2、包裹法

包裹法将选择的特征,用于机器学习模型目标函数的优化,并将使性能最优化的特征自己作为最终的特征。

  • 递归特征消除法RFE(recursive feature elimination)
    使用机器学习模型进行多轮训练,每轮学习后,选择权值系数最小的特征进行剔除,利用剩下的特征进行下一轮的训练,最终剩下的特征就是我们筛选的特征
  • LVW法
    采用拉斯维加斯随机策略来进行特征子集搜索,并以最终分类器的分类误差为特征子集评价原则。主要算法框架如下:
    (1)初始化特征子集A*,包含的特征个数d和误差E
    (2)随机策略选择特征子集A'
    (3)每一轮迭代,利用特征子集A'训练机器学习模型,并交叉验证得到平均误差E'。如果E'<E或者E'=E & d'<d,则A*=A
    (4)迭代多次后,最终的A*即为筛选的特征。

3、嵌入法

嵌入法将特征选择与模型训练融为一体,训练数据时使用的是全部的特征。比如L1、L2正则化就是嵌入法的体现。注意,只有可以得到特征系数或特征重要程度的机器学习算法才可以作为嵌入法的基学习器。

此外,除了以上介绍的特征选择方法外,还可以基于对业务的理解选择高级特征,比如基于两个特征进行加减乘除得到具有相应业务含义的高级特征。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容