一.距离度量
对于聚类,其实之前已经有算法涉及了,比如GMM,这一章开始再次做系统介绍。聚类的核心思想套用一句俗语:“物以类聚,人与群分”,这里面首先有一个“距离”的概念,“聚”是因为“距离近”,“分”是因为“距离远”,下面将常用的“距离”罗列一下,首先定义,样本与样本点
明科夫斯基距离
这里,,当时称为欧氏距离,称为曼哈顿距离,称为切比雪夫距离,这时:
马氏距离
这里,为整个样本集的协方差矩阵
相关系数
夹角余弦
二.类的定义
有了“距离”的定义,我们就可以进一步定义类了,设为给定的正数,若样本集合中任意两个样本,有:
三.性能评估
接下来,我们继续考虑聚类效果的好坏评估标准,显然需要符合我们期望的“物以类聚,人以群分”,有了“距离”的定义之后,我们可以换一个表述:类内距离尽可能小,类间距离尽可能大,所以我们进一步需要对类内距离和类间距离做一个定义
类内距离
类内最大距离
类中任意两个样本之间的最大距离
类内平均距离
类内任意两样本之间距离的均值
散布矩阵
协方差矩阵
这里,为样本的维数
类间距离
设两类分别为和
最短距离
最长距离
中心距离
这里,和分别为类和的中心点
平均距离
性能评估
所以,我们在此基础上可以构造既能反映类内距离,又能反映类间距离的指标
DB 指数
显然,DBI越小越好
Dunn指数
显然,DI越大越好
轮廓系数
其中,表示当前样本与簇内其他样本的平均距离,所以越小,反映了该簇越聚集,表示当前样本与其他簇的平均距离的最小值,所以越大,表示与其他簇越分离,而轮廓系数SCI便是所有样本轮廓系数的均值,可以看出SCI越大越好
则称为一个类(簇)