六.特征工程

特征工程——找到与问题有关的任何信息，把他们转化为特征矩阵的数值。

这个过程通常被称为向量化，因为它把任意格式的数据转换成了具有良好特性的向量形式。

主要有以下示例：

（1）分类特征

一种常见的非数值类型是分类数据。

常用解决办法是独热编码（one-hot）。但这种方法有一个缺陷，如果分类特征有许多的枚举，那么数据集的维度就会很高。由于，被编码的数据中存在很多0，因此用系数矩阵表示会发非常高效！

（2）文本特征

将文本转换为一组数值。

在数据采集最简单的编码方法之一就是单词统计。不过这种方法存在一些问题，会让原始单词中一些常用词聚集太高的权重，在分类算法中这样并不合理。

解决方法之一就是采用TF-IDF（词频逆文档频率），通过单词在文档中出现的频率来衡量其权重。

（3）图像特征

对图像进行编码。

（4）衍生特征

将输入特征经过数学变换衍生出来的新特征。

例如，将一个线性回归转换为多项式回归时，并不需要通过改变模型实现，而是通过改变输入数据！这种处理方法有时候被称为基函数回归。

为数据增加多项式特征：

这种方法不改变模型，而是通过变换输入来改善模型效果的理念，也是很多强大机器学习方法的基础。

最后编辑于：2018.10.23 13:35:01

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。