在数据分析与挖掘过程中,主要涉及数据、模型(算法)及对模型评价系统三个部分组成。
(1)数据按照用途可以分为训练集、测试集和验证集
(2)模型(算法)也就是上篇文章所说分析与预测、聚类、关联规则、时序模式和偏差检测.参见数据挖掘算法(https://www.jianshu.com/p/9d9e0e02178e)
(3)模型评价方法
Sklearn是Python的机器学习库,里面包含了数据集、算法集及对算法的评价(score)。下面表格列出了sklearn库类。
sklearn.datasets提供了一些用于数据分析与挖掘数据集,例如load_boston()返回波士顿预测波士顿房价的数据集,Load_iris()安德森鸢尾花卉数据集。
sklearn.linear_model提供了线性的回归算法。例如:LinearReggression(),
sklearn.metrics是算法的评价函数, mean_square_error()及各类模型(算法)本身的score()评价函数。