数据清洗:组织数据占用的工作时间十分可观。数据工程师在这个步骤中能发挥最大作用。清洗数据的意思是将数据转换为云系统和数据库可以轻松识别的形式
组织数据:组织数据一般更为彻底,经常包括将数据集的格式整体转换为更干净的格式,例如将原始聊天数据转换为有行列结构的表格

特征工程(feature engineering)是这样一个过程:将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能
机器学习算法是按其从数据中提取并利用模式、以基于历史训练数据完成任务的能力来定义的。
监督学习算法专门处理预测一个值的任务,通常是用数据中的其他属性来预测余下的一个属性。在监督学习中,我们一般将数据集中希望预测的属性(一般只有一个,但也不尽然)叫作响应(response),其余属性叫作特征(feature)。
也可以认为,监督学习是一种利用数据结构的算法。意思是,机器学习算法会试图从很漂亮整洁的数据中提取模式。但是之前我们讨论过,不应该想当然地认为进入流水线的数据都是干净的:特征工程由此而来。
无监督学习 监督学习的目的是预测。我们利用数据的特征对响应进行预测,提供有用的信息。如果不是要通过探索结构进行预测,那就是想从数据中提取结构。要做到后者,一般对数据的数值矩阵或迭代过程应用数学变换,提取新的特征。

以上是应用聚类算法后的数据集。注意在最后有一个新的聚类特征,表示这个算法认为此人属于哪个类型。我们的想法是,同一类型的人行为相似(年龄、性别和购买行为等相仿)。也许聚类6可以叫作年轻消费者。这个聚类的例子显示,我们不一定需要输出预测值,可以只是深入了解数据,添加有价值的新特征,甚至删除不相关的特征。注意,这里将所有的列都称为特征,因为无监督学习没有响应,我们没有做预测。
特征与属性 特征和属性通常有明显的区分。属性一般是表格数据的列,特征则一般只指代对机器学习算法有益的属性。也就是说,某些属性对机器学习系统不一定有益,甚至有害。例如,当预测二手车下次维修的时间时,车的颜色应该不会对预测有什么帮助
我们一般将所有的列都称为特征,直到证明某些列是无用或有害的。之后,我们会用代码将这些属性抛弃。那么,对这种决定做出评估就是至关重要的。

❏ 监督学习:也叫预测分析
■ 回归——预测定量数据➢ 主要使用均方误差作为测量指标
■ 分类——预测定性数据➢ 主要使用准确率作为测量指标
❏ 无监督学习:聚类——将数据按特征行为进行分类
■ 主要用轮廓系数作为测量指标❏ 统计检验:用相关系数、t检验、卡方检验,以及其他方法评估并量化原始数据和转换后数据的效果
ps:引用自特征工程入门与实践一书