聚类分析
单击→聚类分析
(欢迎关注微信公众号:spss学习乐园)
聚类分析
聚类分析:研究如何将样品或变量进行分类的一种方法,通俗地说,即“物以类聚”。
从分类目的的角度,聚类分析可分为R型聚类和Q型聚类。R型聚类,即指标聚类(变量聚类),将原先数个指标转化为几类有代表性的新指标(原理为降维)。Q型聚类,即样品聚类,将数据的样本观测值分为几类。
聚类分析的优缺点
优点:聚类分析模型的优点就是直观,结论形式简明。
缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。
常见的聚类方法
本节主要介绍系统聚类分析方法,其中,系统聚类法有最短距离法、 最长距离法、中间距离法、重心法(仅用于样品聚类)、类平均法(仅用于样品聚类)、离差平方和法(即Ward法),可变类平均法、可变法。
其中,最短距离法不适于过于密集的群体;
最长距离法易受异常值的影响;
重心法对于异常值的处理更稳健;
Ward方法适用于多种场合,但对异常值较敏感;
系统聚类分析基本原理
先将n个样品看成n类(即一类包含一个样品),然后将性质最接近的两类合并成一个新类,这样我们就得到n-1类,再从中找出最接近的两类,继续和并为n-2类,依次类推,直到所有的样品合并为预测的类数或一类时结束。
为了更清晰的理解其原理,我们以最短距离法为例,如下所示↓↓
聚类分析注意事项
①聚类分析常用于探索性分析,聚类分析需要使用多种方法,综合比较出较好的结论。
②应剔除无效变量(变量值变化很小)、缺失值过多的变量。
③聚类后的变量,组类间的差异较小,组间的差异较大。
01
案例分析
现对10名女排运动员的七项运动指标测定,X1(800m跑)、X2(立定三级跳远)、X3(仰卧起坐)、X4(3m折返跑)、X5(思维灵敏性)、X6(运动知觉)、X7(适竞感)。现将这10名运动员归类(数据来源:医学统计学,第四版,点击阅读原文获取数据+密码:r02h)
数据视图
变量视图
02
手把手教你
以系统聚类方法为例
【一】单击“分析”“分类”“系统聚类”
【二】弹出如下所示的对话框,将待分析的变量选入右侧变量框中
【三】单击“绘图”,勾选“系谱图”,图的方向也可以选择(本例选择“水平”)
【四】单击“方法”,SPSS中提供了七种系统聚类的计算方法,本次采用系统默认的方法“组之间的链接”
03
结果分析
①
个案处理摘要,了解数据情况
②
从结果来看,运动员“2”和“3”聚为一类,运动员“9”和“10”聚为一类,运动员“6”和“7”聚为一类,运动员“4”和“5”聚为一类,下面的依次类推;
下一阶段,“2”、“3”与“4”、“5”聚为一类,后面结果依次类推。具体情况可以参考系谱图,更直观易懂。
③