机器学习-特征工程

outline

  • 概念
  • 预处理
  • 特征选择
  • 降维

概念

数据集由数据对象组成,一个数据对象代表一个实体
属性(attribute)是一个数据字段,表示数据对象的一个特征。属性向量(或特征向量)是用来描述一个给定对象的一组属性。
属性的分类:

  • 标称属性(nominal attribute)
  • 二元属性(binary attribute)
  • 序数属性(ordinal attribute)--- 常量表中的某个值
  • 数值属性(numerical attribute)= 离散属性 + 连续属性
数据清洗

清洗标注数据,主要是数据采样和样本过滤

数据增强( Data Augmentation)

数据增强是指从给定数据导出的新数据的添加
如CV领域中的图像增广技术

预处理

缺失值的处理

(1)丢弃
(2)均值
(3)上下数据填充
(4)插值法 线性插值
(5)随机森林拟合

标准化和归一化
  • 标准化
    标准化是依照特征矩阵的列处理数据,使每个特征中的数值平均变为0(将每个特征的值都减掉原始资料中该特征的平均)、标准差变为1
    基于正态分布假设
    标准化后可能为负
    (X-X_mean)/std

  • 归一化
    对每个样本计算其p-范数,再对每个元素除以该范数,这使得每个处理后样本的p-范数(l1-norm,l2-norm)等于1。

  • 区间缩放法
    常见的一种为利用两个最值进行缩放


    image.png

    具有加速收敛的作用,原因如下图:


    clipboard.png

可以使用sklearn中的preproccessing库来进行数据预处理

特征选择

定义: 从给定的特征集合中选择出相关特征子集的过程
两个关键问题:

  • 子集搜索
    forward搜索: 逐渐增加相关特征的策略
    backward搜索:逐渐减少特征的策略
    bidirectional搜索
  • 子集评价

特征选择方法 = 子集搜索机制 + 子集评价机制

特征选择的作用
  • 减少(冗余)特征数量、降维,使模型泛化能力更强,减少过拟合
  • 增强对特征和特征值之间的理解
  • 去噪


    image.png

过滤式(filter)

特点:特征选择过程和学习器无关
通过特征的某个统计量值来进行排序,选择Top K特征
from sklearn.feature_selection import SelectKBest

  • 基于方差
  • 基于信息增益
    去除方差较小的特征,譬如某些特征只有一个值

ID3算法在选择节点对应的特征时也是使用信息增益
对于决策树来说,树节点的划分属性所组成的集合就是选择出的特征子集

  • Pearson相关系数
    皮尔森相关系数是一种最简单的,能帮助理解特征和响应变量之间关系的方法,该方法衡量的是变量之间的线性相关性,结果的取值区间为[-1,1],-1表示完全的负相关(这个变量下降,那个就会上升),+1表示完全的正相关,0表示没有线性相关。

  • 互信息量
    互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。互信息最常用的单位是bit。
    根据互信息计算公式可得: 当互信息MI=0时,两个变量(两个事件集合)之间相互独立

  • χ2统计量(卡方检验)
    χ²检验用来检验两个事件的独立性。
    χ2 值越大,则表明实际观察值与期望值偏离越大,也说明两个事件的相互独立性越弱。

wrapper

特点:将后续学习器的性能作为特征子集的评价准则
将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较
启发式算法

from sklearn.feature_selection import RFE

  • Las Vegas Wrapper(LVW)
    在LVW中,特征子集搜索采用了随机策略,然后训练学习器进行交叉校验。
  • 基于学习模型的特征排序
    这种方法的思路是直接使用你要用的机器学习算法,针对每个单独的特征和响应变量建立预测模型。交叉验证后,根据分数值对特征进行排序。
    特征和响应变量之间的关系是线性:线性回归
    假如某个特征和响应变量之间的关系是非线性的,可以用基于树的方法(决策树、随机森林)、或者扩展的线性模型等

embedding

特点:特征选择过程与学习训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择
from sklearn.feature_selection import SelectFromModel

L1和L2范数都有助于降低过拟合风险

L1正则化/Lasso

L1正则化将系数w的l1范数作为惩罚项加到损失函数上,由于正则项非零,这就迫使那些弱的特征所对应的系数变成0
防止过拟合
更容易获得系数解


image.png
L2正则化/Ridge regression岭回归

L2正则化对于特征理解来说更加有用:表示能力强的特征对应的系数是非零

降维

定义:通过某种数学变化将原始高维属性空间转变为低维子空间(subspace)
低维嵌入(三维-->二维):


image.png

降维方法分类


image.png
PCA

from sklearn.decomposition import PCA

参考资料

<机器学习>第10章降维与度量学习-周志华
<机器学习>第11章特征选择和稀疏学习-周志华
结合Scikit-learn介绍几种常用的特征选择方法
机器学习之特征选择
Sklearn数据预处理:scale, StandardScaler, MinMaxScaler, Normalizer
机器学习中,有哪些特征选择的工程方法?
知乎特征工程总结

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容