一、引述
低质量的数据导致低质量的数据挖掘结果,因此需要对数据进行预处理,提高数据质量,提高数据挖掘结果。预处理技术包含了数据清理,数据归约,数据变换。
数据清理:清楚数据中的噪声,纠正不一致。数据归约:通过如聚集、删除冗余特征或聚类来降低数据的规模。数据变化:数据归一化,将数据压缩到较小的区间,例如0.0-1.0
可以提高涉及距离度量的挖掘算法的准确率和效率
二、数据清理
数据一般是不完整的、有噪声的和不一致的,数据清理试图填补缺失的值,光滑噪声、识别离群点,并纠正数据的不一致性。
2.1 填补缺失值方法
(1)忽略元组,(2)使用属性的中心度量(如均值或中位数)填充缺失值,(3)使用与给定元组属于同一类的所有样本的属性均值或中位数,(4)使用全局常量填充缺失值,比如使用Unknown。
2.2 光滑噪声数据
噪声是被测量的变量的随机误差或方差
(1)分箱技术:分箱方法考虑相邻的值,是一种局部平滑方法。分箱的主要目的是去噪,将连续数据离散化,增加粒度。按照取值的不同可划分为按箱平均值平滑、按箱中值平滑以及按箱边界值平滑。
假设有4 8 15 21 21 24 25 28 34等9个数,分为3箱
划分为等频的箱:箱1:4 8 15,箱2:21 21 24,箱3:25 28 34
箱均值光滑:箱1:9 9 9,箱2:22 22 22,箱3:29 29 29
箱边界光滑:箱1:4 415,箱2:21 21 24,箱3:25 25 34
(2)回归:用一个函数拟合数据来光滑数据
(3)离群点分析:通过聚类来检测离群点
(4)冗余和相关分析:若一个属性如果能由另一个或另一组属性“导出”,则这个属性就是冗余的。另外一些冗余则可以被相关分析检测到。标称数据:使用卡方检验;数值属性,使用相关系数。
标称数据的卡方检验:
对于标称数据,两个属性A和B之间的相关联系可以通过卡方检验,卡方统计检验假设A和B独立,检验基于显著水平,具有自由度(r-1)(c-1)。
自由度:(r-1)*(c-1);查询卡方分布表,得到在某置信水平下的拒绝假设的值。
数值数据的相关系数
对于数值数据,我们可以通过计算属性A和B的相关系数,也叫Pearson相关系数,估计两个属性的相关度
若r大于0,则A和B是正相关,意味着A值随B值的增加而增加。该值越大,相关性越强,表明A和B,则可以说明A和B这两属性冗余。如果r等于0,说明A和B是独立的。如果r小于0,说明A和B是负相关,一个值随着另一个减少而增加,意味这这个属性是阻止另外一个属性出现的。
数值数据的协方差、相关系数
协方差和方差是两个类似的度量,评估两个属性如何一起变化。A和B的协方差定义为:
若A和B独立,即不具有相关性,则E(AB)=E(A)E(B),则cov(A,B)=0。若cov(A,B)=0,则说明A和B不相关,不能说明独立
2.3 数据规约
得到数据的规约表示,而使得信息内容的损失最小化,数据规约方法包括维规约、数量规约、数据压缩。
1 维规约:减少所考虑的属性的个数,方法包括小波变换、主成份分析(PCA)、属性子集选择和特征构造。小波变换合适于高维数据,主成份分析适合于稀释数据。属性子集选择通常使用决策树。属性构造可以帮助提高准确性和对高维数据结构的理解。
2 数量规约:使用参数或非参数模型,得到原数据的较小表示。参数模型只存放模型参数,而非实际数据。例如回归和对数线性模型,非参数模型包括直方图、聚类、抽样。抽样包括无放回的简单随机抽样,有放回的简单随机抽样,簇抽样,分层抽样
3 数据压缩:使用变换,得到元数据的规约或压缩表示,如果原数据可以有压缩后的数据重构,而不损失任何信息,则数据压缩是无损的,否则就是有损的。
2.4 数据变换
将数据变换成统一形式,使得挖掘过程可能更有效,挖掘的模式更容易理解。
数据变换策略:
1 光滑:去掉数据中的噪声,包括分箱、回归、聚类
2 属性构造:由给定的属性构造新的属性并添加到属性集中
3 聚集:对数据进行汇总或聚集
4 规范化:把属性数据按比例进行缩放
5 离散化:数值属性的原始值用区间标签或概念标签替换
6 由标称数据产生概念分层:属性如street泛化到较高的概念层如city
2.4.1 最小-最大规范化
如income的最大最小是【200,50】,映射到区间【0,1】中,某个income值150:(150-50)/(200-50)(1-0)+0=2/3
2.4.2 z分数规范化
假设incom的均值和标准差是54和16,那么值73.6的被转换为(73.6-54)/16=1.225