一起来读西瓜书:第九章 聚类 - 简书
http://www.jianshu.com/p/499b2f32a662
概要:在介绍聚类的具体算法之前,我们得要先讨论聚类算法涉及的最基本的问题:如何判断一个聚类算法结果的好坏--
聚类结果的“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(inter-cluster similarity)低
聚类算法涉及的最基本的问题:如何判断一个聚类算法结果的好坏
1)聚类结果好坏的评估指标:性能度量
聚类性能度量亦称聚类“有效性指标”(validity index),与监督学习一样,它的目的是为了用来评估聚类结果的好坏,当我们能通过性能度量来评估聚类的好坏时,我们就可以通过将这个性能度量作为优化目标来生成更好的聚类结果。
对于聚类算法来说,什么样的结果是好的呢?
换言之,聚类结果的“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(inter-cluster similarity)低
我们将聚类的性能度量大致划分为了以下两类:
[1]外部指标
对于“外部指标”,我们的度量目的就是要使得我们的聚类结果与参考模型尽可能相近
其度量的中心思想是:聚类结果中被划分到同一簇中的样本在参考模型中也被划分到同一簇的概率越高代表聚类结果越好。常用的性能指标有:Jaccard系数、FM指数、Rand指数
[2]内部指标
“内部指标”通过计算簇内的样本距离,以及簇间的样本距离来对聚类结果进行评估。常用的性能指标有:DB指数、Dunn指数