1. 结构化数据的特征
2. 常见数据集类型
3. 数据预处理的流程
4. 数据质量
数据挖掘过程中 数据质量 对运行结果至关重要。
由于数据挖掘使用的数据常常是为其他用途收集的,或者在收集时没有明确其目,不能“在数据源头上控制数据质量”。然而,实验过程中,数据质量常达到了一定的要求。
无法避免数据质量问题,数据挖掘着眼于两个方面:
(1)数据质量问题的监测与纠正,称为数据清洗;
(2)使用可以容忍低质量数据的算法。
这里,主要关注数据质量相关的问题及其处理方法。
5. 常用的数据预处理方法
OK!
一天仅完成“数据挖掘”两章的复习,进度有点慢。明天加快速度!期末为自己加油!