(三) 数据预处理

数据质量:准确性,完整性,时效性,一致性,可信性,可解释性

数据清理:填写缺失值,光滑噪声数据,识别或删除离群点
1,缺失值


image.png

2,光滑
2.1,分箱

image.png

2.2,回归

2.3,离群点分析

image.png

数据集成:不同数据源集合在一起
数据归约:
1,维归约:数据压缩技术(小波变换和主成分分析),去掉没用的属性值
2,数值归约:参考模型(回归和对数线型模型)或非参数模型(直方图,聚类,抽样或数据聚集)

image.png

冗余与相关分析

1,标称数据的X2相关检验

1,
image.png
image.png
image.png

2,数值数据的相关系数

image.png

3,数值数据的协方差

image.png
image.png

元组重复

属性项重复了

数据值冲突的监测与处理

对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是表示尺度或编码不同。例如,公斤与磅的重量单位

数据归约

image.png

聚类

image.png

抽样

image.png

数据变换策略概述

image.png

image.png

通过规范化变换数据

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容