特征工程笔记(Feature Engineering)

数据和特征决定了机器学习的上限,而模型和算法只是不断地逼近这个上限。

特征工程.png

图片来自知乎

往往拿到的数据会有以下问题:
- 量纲不统一
- 定性特征不能直接拿来使用,需要转换
- 缺失值
- 信息利用率低

无量纲化:无量纲化使不同规格的数据转换到同一规格,常见的方法有标准化和区间缩放法。标准化的前提是特征值符从正态分布,标准化后,将其转换成标准正态分布。区间缩放则利用了边界值信息,将特征的值域缩放到特定的范围(比如[0,1])。

标准化:公式如下
均值和方差
区间缩放
标准化和归一化的区别(参考知乎答案)

归一化方法

  • 把数变为(0,1)之间的小数主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。
  • 把有量纲表达式变为无量纲表达式 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。
    标准化方法:
  • 数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。
对定量特征二值化:

定量特征二值化的核心在于设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0,公式表达如下:


对定性特征压扁吗: One-hot 编码
缺失值计算: 比如通过其他特征作为输入,缺失特征作为输出。通过随机森林预测缺失特征的缺失值。
数据变换:基于多项式,基于指数函数,基于对数函数等。

特征选择

当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:

  • 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
  • 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种:

  • Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。
  • Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。
  • Embedded:集成法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。(比如随机森林)
Filter Embedded Wrapper
方差选择法 基于惩罚项的特征选择法 递归特征消除法
相关系数法 基于树模型的特征选择法
卡方检验
互信息法

降维

  • PCA 主成分分析
  • LDA 线性判别分析法
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 作者:jasonfreak,原文地址:使用sklearn做单机特征工程 目录 特征工程是什么? 数据预处理2.1 ...
    JSong1122阅读 4,733评论 0 8
  • 0 关于本文 ​ 主要内容和结构框架由@jasonfreak--使用sklearn做单机特征工程提供,其中夹杂...
    mrlevo520阅读 21,585评论 4 61
  • 文章主要参考于大神城东(部分认为有问题的地方进行了修改) 1. 特征工程是什么? 数据和特征决定了机器学习的上限,...
    jockerMe阅读 5,646评论 0 11
  • 欲·何求 一眼名欲贪念栽 亦风亦云真善埋 油田葱茏荣光卸 心简甜馨自由来 别·情爱 泪湿衣绸别意决 不爱不痛便无伤...
    花非物欲阅读 1,716评论 0 0
  • 文/王小波 转自原文 我不相信人会有所谓的“命运”,但是我相信对于任何人来说,“限度”总是存在的。再聪明再强悍的...
    笨笨熊阅读 3,621评论 0 6