2019-03-07-聚类性能评估

        """
            聚类性能评估
            1、Adjusted Rand index (ARI)
            优点：
            1.1 对任意数量的聚类中心和样本数，随机聚类的ARI都非常接近于0；
            1.2 取值在［－1，1］之间，负数代表结果不好，越接近于1越好；
            1.3 可用于聚类算法之间的比较
            缺点：
            1.4 ARI需要真实标签
        """
        ARI_t.append(adjusted_rand_score(labels_true=y, labels_pred=y_pred))

        """
            2、Mutual Information based scores (MI) 互信息
            优点：除取值范围在［0，1］之间，其他同ARI；可用于聚类模型选择
            缺点：需要先验知识
        """
        AMI_t.append(adjusted_mutual_info_score(labels_true=y, labels_pred=y_pred))

        """
        1.3 Homogeneity, completeness and V-measure
        同质性homogeneity：每个群集只包含单个类的成员。 
        完整性completeness：给定类的所有成员都分配给同一个群集。
        两者的调和平均V-measure
        """
        H_t.append(homogeneity_score(y, y_pred))
        C_t.append(completeness_score(y, y_pred))
        V_t.append(v_measure_score(y, y_pred))

        '''
        Calinski-Harabaz Index
        这个计算简单直接，得到的Calinski-Harabasz分数值ss越大则聚类效果越好
        类别内部数据的协方差越小越好，类别之间的协方差越大越好，这样的Calinski-Harabasz分数会高。
        '''
        CHI_t.append(calinski_harabaz_score(X, y_pred))

最后编辑于：2019.03.07 20:05:39

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

2019-03-07-聚类性能评估

友情链接更多精彩内容