六.特征工程

特征工程——找到与问题有关的任何信息,把他们转化为特征矩阵的数值。

这个过程通常被称为向量化,因为它把任意格式的数据转换成了具有良好特性的向量形式。

主要有以下示例:

(1)分类特征

一种常见的非数值类型是分类数据。

常用解决办法是独热编码(one-hot)。但这种方法有一个缺陷,如果分类特征有许多的枚举,那么数据集的维度就会很高。由于,被编码的数据中存在很多0,因此用系数矩阵表示会发非常高效!

(2)文本特征

将文本转换为一组数值。

在数据采集最简单的编码方法之一就是单词统计。不过这种方法存在一些问题,会让原始单词中一些常用词聚集太高的权重,在分类算法中这样并不合理。

解决方法之一就是采用TF-IDF(词频逆文档频率),通过单词在文档中出现的频率来衡量其权重。

(3)图像特征

对图像进行编码。

(4)衍生特征

将输入特征经过数学变换衍生出来的新特征。

例如,将一个线性回归转换为多项式回归时,并不需要通过改变模型实现,而是通过改变输入数据!这种处理方法有时候被称为基函数回归。

为数据增加多项式特征:

这种方法不改变模型,而是通过变换输入来改善模型效果的理念,也是很多强大机器学习方法的基础。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容