一:变量变换
变量变换是指用于变量的所有制的变换,也叫做属性变换。
方法:
简单函数
统计学中,变量变换常用来将布局正太分布的数据变换为正太分布的数据。
数据挖掘中,假定感兴趣的变量是一次绘画中的数据的字节数,值域为1到10亿,常用数据的变换将其进行压缩。
规范化或标准化
标准化和规范化的目标是使整个值得集合具有特定的性质。
举例:x~位某属性值得均值,sx为标准差,则变换x'=(x-x~)/sx创建一个新的变量,它的均值为0标准差为1。在例如:考虑年龄和收入对人进行比较,收入之差的绝对值一定会比年龄之差的绝对值大的多。如果不考虑这种值域的区别,对人的比较将被收入之差左右。
均值和标准差受离群点的影响也很大,因此通常需要修改上述变换,首先用中位数取代均值,用绝对标准差取代标准差。具体方法以后会讲到。
二.相似性和相异性
相似性和相异性被很多数据挖掘技术所使用,如聚类,最邻近分类和异常检测。在许多情况下,一旦计算出相似性和相异性,就不再需要原始数据了,这种方法就是将数据变换到相似或相异的空间,然后再进行分析。我们常用术语邻近度来表示相似性和相异性。两个对象之间的邻近度是两个对象之间的邻近度的邻近度函数,我们先介绍如何度量仅包含一个简单属性对象的邻近度,然后再考虑多个属性对象的邻近度。
适用于时间序列的稠密数据的邻近度度量:欧几里得距离度量,相关
适用于文档这样的稀疏数据的度量:jaccard和余弦相似性度量。
基础
定义:两个对象之间的相似度的非正式定义是这两个对象相似程度的度量值,通常相似度是非负的,并且常在0和1之间取值。
相异度是这两个对象差异程度的数值度量。对象越类似,他们的相异度越低。相异度在[0,1]中取值,但常常也在0到无穷之间取值。
变换
通常使用变换把相似度转换成相异度或相反,或者把邻近度变换到一个特定区间,如[0,1],例如我们有相似度的范围为1到10,我们要把它转换为[0,1]区间中的值再处理。
一般来说,相似度[0,1]的区间的变换由如下表达式给出:s'=(s-min_s)/(max_s-min_s)。
将在区间0到无穷上的相异度变换需要使用线性变化 ,考虑变换d'=d/(d+1),这样就将原来相异性制度较大的值压缩到1附近。
数据对象的相异度
距离:欧几里得距离,闵可夫斯基距离