数据质量:准确性,完整性,时效性,一致性,可信性,可解释性
数据清理:填写缺失值,光滑噪声数据,识别或删除离群点
1,缺失值
image.png
2,光滑
2.1,分箱
image.png
2.2,回归
2.3,离群点分析
image.png
数据集成:不同数据源集合在一起
数据归约:
1,维归约:数据压缩技术(小波变换和主成分分析),去掉没用的属性值
2,数值归约:参考模型(回归和对数线型模型)或非参数模型(直方图,聚类,抽样或数据聚集)
image.png
冗余与相关分析
1,标称数据的X2相关检验
1,image.png
image.png
image.png
2,数值数据的相关系数
image.png
3,数值数据的协方差
image.png
image.png
元组重复
属性项重复了
数据值冲突的监测与处理
对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是表示尺度或编码不同。例如,公斤与磅的重量单位
数据归约
image.png
聚类
image.png
抽样
image.png
数据变换策略概述
image.png
image.png