聚类分析的弱点:无论数据中是否真正存在不同的类别,利用聚类分析总能得到将其拆分为若干类的结果。因此,进行结果的有效性验证就变得非常关键。
结果验证的方式:
(1)关键变量的分类别描述。如果在专业上比较重要的一些变量在各类别间的分布无明显差异,则有理由怀疑聚类结果的有效性。
(2)各变量的类间比较。如果有较多变量在类间无差异,则有理由怀疑聚类效果不佳。
(3)将聚类结果作为因变量建立判别式,如果对各类别分别进行判别的回代正确率都非常高,那么就有较大把握认为这些类别是客观存在且存在明显特征差异的
(4)各个类别中案例数量尽量不要差距过大,否则有理由怀疑其“有用性”
(5)对同一数据集使用不同的聚类方法,比较其结果,如果差异过大,则有理由怀疑聚类结果的“稳定性”
(6)数据量过大时,可按照比例将其随机分成两个部分,用同一种方法两个部分进行处理,特征、数量差异过大,则有理由怀疑其“可靠性”