数据挖掘是机器学习的前身,标准的数据分析与挖掘流程分为6部分,与数据挖掘紧密相关有3部分:数据整理、构建模型和模型评价。
数据挖掘建模过程:6个部分:
1 目标定义
2 数据采集
3 数据整理
4 构造模型
5 模型评价
6 模型发布
数据探索:
对收集到的样本数据集,从数据和质量两方面,对结构和规律进行分析的过程就是数据探索。
数据质量分析要求拿到数据后先检测是否存在缺失值和异常值;
数据特征分析要求在数据挖掘建模前,通过频率分布分析、对比分析、帕累托分析、周期性分析、相关性分析等方法,对采集的样本数据的特征规律进行分析,以了解数据的规律和趋势,为数据挖掘的后续环节提供支持。
Python相关库为pands(数据分析)和Matplotlib(数据可视化)。
数据预处理
海量的原始数据可能存在大量不完整(有缺失值)、不一致、有异常值情况,会严重影响挖掘建模的执行效率,甚至导致挖掘结果的偏差,因此需要数据清洗。
数据预处理工作通常占了数据挖掘过程的60%工作量。
数据预处理主要包括4个任务:数据清洗、数据集成、数据交换和数据规约。
(1)数据清洗:对异常值和缺失值的处理。缺失值方法:删除记录、数据插补和不处理,异常值处理方法:删除含有异常值的记录、不处理、平均值修正和视为缺失值。
(2)数据集成:合并多个数据源中的数据,并存放到一个数据存储的过程,这部分从实体识别问题和冗余属性两方面进行;
(3)数据变换:从不同的应用角度对已有属性进行函数变换;
(4)数据规约:从属性(纵向)和数值(横向)规约两个方面对数据进行规约,使挖掘的性能和效率得到很大提高。
挖掘建模:
基本任务分为5个方面:分类与预测、聚类、关联规则、时序模式、离群点检测。
主要算法有回归分析、决策树、人工神经网络、贝叶斯网络、支持向量机。不展开。