(24)聚类分析--二阶聚类

可以同时设置分类变量和连续变量,可以参与聚类的变量更多。

【输出】

勾选“透视表”:对数据做概述

勾选“创建聚类成员变量”:生成新的分类变量

二阶聚类的智能体现:

1)可以同时对连续变量和分类变量进行处理

2)操作简单,不需要提前制定聚类的数目,二阶聚类会自动分析并输出最优聚类数目。

二阶聚类结果分析:

该结果主要借由统计指标“施瓦兹贝叶斯准则BIC”帮助判断最佳分类数量。

统计上讲,BIC越小,代表聚类效果越好,但是实际应用中还要综合考虑BIC变化量、BIC变化率及相邻聚类数目之间的距离测量比率,通过三者结合进一步确定最佳的分类数目。

判断一个聚类方案的依据是:BIC数值越小,同时BIC变化量的绝对值越大、距离测量比率数值越大,则说明聚类效果越好。

本例中类别2的BIC数值相对较小,且BIC变化量和距离测量比率都是最大的,由此判断最佳类别数目为2.

该表说明:分类数目为2及各分类下的个案数

该表反映了数据分布的平均位置,可理解为连续变量的集中趋势,常用平均指表示。

本例中类别2的指标平均值都高于类别1.

以下是二阶聚类最精彩的,双击激活模型查看器

该结果显示二阶聚类参与分析的变量个数以及最终分类数,同时还以图形化的方式展示了聚类的效果。

本例中聚类效果处于“尚可”范围。

切换左下角查看方式为“聚类”

左侧的该表格是二阶聚类分析结果的核心内容,他根据类别占比的大小进行排列,下方显示参与聚类分析的各变量的分布特征,同时每个变量用深浅不同的颜色进行表示,颜色的深浅意味着变量重要性的高低,颜色越深,说明对应的变量在聚类分析中的重要程度越高。

本例中,最高学历的重要性最高,三个绩效评估指标的重要性次之,性别的重要性最低。

选择任意一个变量,,右侧窗口都显示“单元格分布”结果,该结果显示所选变量类别对应的频数分布和总数。

其中分类变量用柱状图表示,连续变量用波浪图表示。

可以更改查看方式,查看“预测变量的重要性”

本例中,预测变量的重要性排序:最高学历>狗能能力得分>业务能力得分>领导能力得分>性别

按住Ctrl键,选择类别1和类别2,右侧窗口会显示“聚类比较”结果:

1)分类变量用大小不同的圆圈表示,连续变量用方块表示。

2)对于分类变量,结果显示众数值在类别中所占的比例,圆圈表示众数值得比例高低,圆圈越大,说明众数值所占比例越高,反之越低。

3)对于连续变量,方块表示中位数,对应的线段的两个端点表示其上下四分位数。

三种聚类方法的对比:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • RFM分析只能对客户的行为进行分析,包含的信息量有点少。一般来说,对人群进行分类,要综合考虑其行为、态度、模式以及...
    黄成甲阅读 8,779评论 0 36
  • 一。简单介绍 按照特征来分; 目的在于人士能够同一个类别内的个体之间具有较高的相似度,而不同的相似度,而不同类别 ...
    Joypang阅读 8,868评论 0 2
  • 根据聚类对象的不同可分为以下两种: 样本聚类,又称Q型聚类 变量聚类,又称R型聚类 SPSS的Classify子菜...
    Co_zy阅读 1,310评论 0 3
  • 本章代码聚类分析是一种数据归约技术,旨在揭露一个数据集中观测值的子集。它可以把大量的观测 值归约为若干个类。这里的...
    生信摆渡阅读 3,399评论 1 12
  • 聚类分析定义与作用: 是把分类对象按照一定规则分成若干类,这些类不是事先设定的,而是根据数据的特征确定的。在同一类...
    毕业零距离阅读 35,017评论 1 40