可以同时设置分类变量和连续变量,可以参与聚类的变量更多。
【输出】
勾选“透视表”:对数据做概述
勾选“创建聚类成员变量”:生成新的分类变量
二阶聚类的智能体现:
1)可以同时对连续变量和分类变量进行处理
2)操作简单,不需要提前制定聚类的数目,二阶聚类会自动分析并输出最优聚类数目。
二阶聚类结果分析:
该结果主要借由统计指标“施瓦兹贝叶斯准则BIC”帮助判断最佳分类数量。
统计上讲,BIC越小,代表聚类效果越好,但是实际应用中还要综合考虑BIC变化量、BIC变化率及相邻聚类数目之间的距离测量比率,通过三者结合进一步确定最佳的分类数目。
判断一个聚类方案的依据是:BIC数值越小,同时BIC变化量的绝对值越大、距离测量比率数值越大,则说明聚类效果越好。
本例中类别2的BIC数值相对较小,且BIC变化量和距离测量比率都是最大的,由此判断最佳类别数目为2.
该表说明:分类数目为2及各分类下的个案数
该表反映了数据分布的平均位置,可理解为连续变量的集中趋势,常用平均指表示。
本例中类别2的指标平均值都高于类别1.
以下是二阶聚类最精彩的,双击激活模型查看器
该结果显示二阶聚类参与分析的变量个数以及最终分类数,同时还以图形化的方式展示了聚类的效果。
本例中聚类效果处于“尚可”范围。
切换左下角查看方式为“聚类”
左侧的该表格是二阶聚类分析结果的核心内容,他根据类别占比的大小进行排列,下方显示参与聚类分析的各变量的分布特征,同时每个变量用深浅不同的颜色进行表示,颜色的深浅意味着变量重要性的高低,颜色越深,说明对应的变量在聚类分析中的重要程度越高。
本例中,最高学历的重要性最高,三个绩效评估指标的重要性次之,性别的重要性最低。
选择任意一个变量,,右侧窗口都显示“单元格分布”结果,该结果显示所选变量类别对应的频数分布和总数。
其中分类变量用柱状图表示,连续变量用波浪图表示。
可以更改查看方式,查看“预测变量的重要性”
本例中,预测变量的重要性排序:最高学历>狗能能力得分>业务能力得分>领导能力得分>性别
按住Ctrl键,选择类别1和类别2,右侧窗口会显示“聚类比较”结果:
1)分类变量用大小不同的圆圈表示,连续变量用方块表示。
2)对于分类变量,结果显示众数值在类别中所占的比例,圆圈表示众数值得比例高低,圆圈越大,说明众数值所占比例越高,反之越低。
3)对于连续变量,方块表示中位数,对应的线段的两个端点表示其上下四分位数。
三种聚类方法的对比: