外部指标 (要求数据集有标签)
-
调整兰德系数 Adjusted Rand Index
描述分类与真实标签的相似度
1) RI取值范围为[0,1],RI越大聚类效果越准确,即每个类内的纯度越高
2) ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。
其中,a代表同类别同标签元素对数, b代表不同类别不同标签元素对数
jaccard
又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。
内部指标 (针对无标签数据)
相对指标
- 轮廓系数
轮廓系数描述的是 样本是否被正确分类的评分
轮廓系数可以用于确定k值
评判分类效果
轮廓系数的缺点: 如双环形数据集,单连接和DBSCAN可以完美分割,但是得分却很低,因而轮廓系数更适合用于紧凑的数据聚类