04 特征工程

特征工程是所有机器学习的最重要的一步。如果要对特征工程梳理最基本的操作,考虑以下四步:
1.编码
2.分箱
3.自动化特征选择(单变量选项,模型选择,迭代选择)
4.经验特征选择

先说数据集:美国成年人收入的数据集,该数据集是从 1994 年的普查数据库中导出的。adult 数据集的任务是预测一名工人的收入是高于 50 000 美元还是低于 50 000 美元。这个数据集的特征包括工人的年龄、雇用方式(独立经营、私营企业员工、政府职员等)、教育水平、性别、每周工作时长、职业,等等。


表1:dataset

4.1 编码(独热)

使用编码的主要原因:工作时间,工作年龄是连续的值,但是性别,职业等是离散值。连续值方便看出数据规律,但是离散值很难参与计算,所以需要进行编码。编码的方式有很多,著名的是one-hot独热编码,独热编码的意思是如果一个人的 workclass 特征(表1)取某个值(取值包括 "Government Employee"、"Private Employee"、"Self Employed" 和 "Self Employed Incorporated"),那么对应“有”的特征取值为 1,其他特征“无”均取值为 0。因此,对每个数据点来说,4 个新特征中只有一个的取值为 1。这就是它叫作 one-hot 编码的原因。
关于独热编码有几点需要注意:

  • 独热编码可以提高准度(下图中最后逻辑模型显示准度)。
  • 将数据转换为分类变量的 one-hot 编码有两种方法:一种是使用 pandas(简单一些,下图dummies),一种是使用 scikit-learn。


    逻辑模型判断

4.2 分箱

分箱起到的作用是让原本的线性回归(一条直线),分为不同的箱子(下图中x轴)变为分段操作,在配合不同的斜率,拟合数据变化的规律,提升原有线性回归的准度。


分箱

不过通过试验证明,分箱的操作比默认SVM性能还是略低。
所以,分箱、多项式交互对线性模型的提升较高,其他算法还好。

4.3 自动化处理

处理一般的高维数据集时,最好将特征的数量减少到只包含最有用的那些特征,并删除其余特征。这样会得到泛化能力更好、更简单的模型。
如何判断每个特征的作用有多大呢?有三种基本的策略:单变量统计(univariate statistics)、基于模型的选择(model-based selection)和迭代选择(iterative selection)。
所有这些方法都是监督方法,即它们需要目标值来拟合模型。这也就是说,我们需要将数据划分为训练集和测试集,并只在训练集上拟合特征选择。

4.3.1 单变量统计

在单变量统计中,核心计算每个特征和目标值之间的关系是否存在统计显著性,然后选择具有最高置信度的特征。对于分类问题,这也被称为方差分析。这些测试的一个关键性质就是它们是单变量的(univariate),即它们只单独考虑每个特征。
因此,如果一个特征只有在与另一个特征合并时才具有信息量,那么这个特征将被舍弃(缺陷)。
单变量测试的计算速度通常很快,并且不需要构建模型。另一方面,它们完全独立于想要在特征选择之后应用的模型。
对分类问题通常是 f_classif(默认值),对回归问题通常是 f_regression(下图红色框)。计算阈值的方法各有不同,最简单的是 SelectKBest 和 SelectPercentile,前者选择固定数量的 k 个特征,后者选择固定百分比的特征。我们将分类的特征选择应用于 cancer 数据集。为了使任务更难一点,我们将向数据中添加一些没有信息量的噪声特征(下图第一个框,加了50个噪声)。我们期望特征选择能能够识别没有信息量的特征并删除它们:

SelectPercentile

单变量特征选择,删除的噪点后的feature大概准度有9.3 成。

4.3.2 基于模型的特征选择

基于模型的特征选择使用一个监督机器学习模型来判断每个特征的重要性,并且仅保留最重要的特征。用于特征选择的监督模型不需要与用于最终监督建模的模型相同。特征选择模型需要为每个特征提供某种重要性度量,以便用这个度量对特征进行排序。决策树和基于决策树的模型提供了 feature_importances_ 属性,可以直接编码每个特征的重要性。线性模型系数的绝对值也可以用于表示特征重要性。

feature_importances

单变量特征选择,删除的噪点后的feature大概准度有9.5 成。

4.3.3 迭代特征选择

在单变量测试中,没有使用模型,而在基于模型的选择中,使用了单个模型来选择特征。(有可能单个不起作用,但是组合会起作用,导致误删)
在迭代特征选择中,将会构建一系列模型,每个模型都使用不同数量的特征。有两种基本方法:开始时没有特征,然后逐个添加特征,直到满足某个终止条件;或者从所有特征开始,然后逐个删除特征,直到满足某个终止条件。由于构建了一系列模型,所以这些方法的计算成本要比前面讨论过的方法更高。其中一种特殊方法是递归特征消除(recursive feature elimination,RFE),它从所有特征开始构建模型,并根据模型舍弃最不重要的特征,然后使用除被舍弃特征之外的所有特征来构建一个新模型,如此继续,直到仅剩下预设数量的特征(迭代次数如图所示)。
迭代特征选择,删除的噪点后的feature大概准度有9.5 成。最后两种准度差不多。


estimator

如果你不确定何时选择使用哪些特征作为机器学习算法的输入,那么自动化特征选择可能特别有用。它还有助于减少所需要的特征数量,加快预测速度,或允许可解释性更强的模型。在大多数现实情况下,使用特征选择不太可能大幅提升性能,但它仍是特征工程工具箱中一个非常有价值的工具。

4.专家模式

专家模式其实核心是就借助经验处理来提高准度。人工智能有句话“有多少人工就有多少智能”。机器学习的目的是避免创建一组专家设计的规则,但这并不意味着应该舍弃该应用或该领域的先验知识。通常来说,领域专家可以帮助找出有用的特征,其信息量比数据原始表示要大得多。
我们以自行车出租数据为例(https://www.citibikenyc.com/system-data),想要解决的任务是,对于给定的日期和时间,预测有多少人将会在 Andreas 的家门口租一辆自行车——这样他就知道是否还有自行车留给他。

原始数据

可以看到在默认随机森林学习的情况下,训练数据集不错,但是在测试数据集几乎是一个直线(什么也没有学习到),原因是:测试集中数据点的时间戳要晚于训练集中的所有数据点。树以及随机森林无法外推(extrapolate)到训练集之外的特征范围。结果就是模型只能预测训练集中最近数据点的目标值,即最后一次观测到数据的时间。


默认随机森林

我们作为人,觉得:租借自行车应该和星期和时间点有关(这就是专家,机器是不告诉,是学习不了),加入2个因素,效果就好了很多。基本测试集就拟合了。


星期几+时间

下一章节重点介绍评估机器学习模型的性能与选择正确的参数设置。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352