SPSSAU教程15:聚类样本研究分析思路

聚类,顾名思义,就是将原本无规律的数据,通过比较数据之间的相似性,找出它们的联系,将差别小的数据分为一类,保证不同类别之间的差别较大。聚类研究一般是对研究的样本人群进行分析,把人群划分为不同类别,再对不同类别人群的差异进行分析。

聚类分析与因子分析

分析时很多人容易把聚类和因子分析的概念弄混,其实两者既有联系也有区别。

(1)区别:

因子分析:分为探索性因子分析和验证性因子分析,多用来分析问卷效度、浓缩信息、计算权重或者分析综合竞争力。比如将20个题浓缩为5个关键词。

聚类分析:分为样本聚类和变量聚类,通常比较常用样本聚类,比如有500个人,这500个人可以聚成几个类别。

(2)联系:

在研究中,可以先做因子分析浓缩题项信息,也就是把多个题浓缩成几个变量,得到因子得分。然后将因子得分进一步聚类分析,得到几个类别群体,可用于后续的研究。


思路框架


具体分析步骤:

1.  样本背景分析

首先对研究数据样本基本特征情况(比如性别、年龄、学历等)进行分析

2.  样本特征、行为分析

如果有涉及样本群体的特征、行为、或者态度相关项,则可单独一部分进行分析

3.  指标归类分析

如果研究量表数据并不知道分成几个维度,比如有20个量表题,应该分成几个维度并不确定,此时可使用因子分析方法进行。找出应该分成几个维度(因子),以及题项和维度的对应关系情况。

4.  信度和效度分析

接着对量表项进行信度和效度分析(备注:因子分析已经得出维度与题项对应关系,此时说明已经有效度,有时也可放弃效度分析,从内容完整性上建议放入)

5.  聚类分析

完成因子分析后,已经确认得到几个维度,可将此几个维度进行聚类,得到几种类别的群体,然后结合每类群体的特征,给每个聚类类别进行命名。(备注:一个维度由多个题项表示,想将多个题项概括成一个整体,此时需要使用SPSSAU中“生成变量”的“平均值”功能即可)

6.  聚类效果验证

严格意义上的聚类分析并非统计检验分析方法,而是一种数据描述性方法。从应用角度看,研究人员可以使用以下几种方法综合判断聚类效果。

    第一,看聚类后的类别是否可以有效命名,且是否符合现实意义。

    第二,判断分析方法进行判断,将软件生成的聚类类别变量作为因变量(Y),将聚类变量作为自变量(X),判别分析聚类变量与类别之间投影关系情况。

    第三,文字说明聚类分析方法的详细过程及科学性。

    第四,要看聚类分析后每个类别样本量是否均匀,如果聚类结果显示为三个类别,其中一个类别样本量非常少,说明聚类效果可能较差。

7.  得到聚类类别之后,接着需要对比不同类别群体的差异性;包括比如在“特征”、“行为”或者“态度”上的差异性。便于结合不同群体提供不同的建议措施等。如果是研究聚类样本的个体背景特点差异,聚类类别和样本背景题项(性别、年龄、学历等)均为分类数据,因而应该使用卡方分析进行对比差异,进一步了解不同细分类别人群在个体背景上的差异情况,便于对类别样本进行深入分析。

研究者还可以对比不同类别样本与问卷中其余题项的差异情况,如果题项为定量数据则需要使用方差分析,如果题项为分类数据则使用卡方分析,如果题项为多选题,也应该使用卡方分析


此类问卷思路的核心特点在于“分类”,即对样本人群细分。在此基础之上,才会有后面的关于不同类别人群的差异分析。

聚类分析说明

上部分已经对整体框架进行说明,这部分主要对聚类的分析步骤进行进一步说明。其他分析步骤的说明在之前的文章都有介绍,这里就不再重复。


聚类分析常见的方法有:两部聚类、K-均值聚类、系统聚类。


两步聚类可以同时处理定类数据和定量数据,并且可以系统自动寻找最有聚类类别数量。使用与数量大且结构复杂的分析。

K-均值聚类,又叫快速聚类,可以快速处理大量数据,速度快并且处理大量数据是K-均值聚类的优点,但其仅针对定量数据而不能处理分类数据,并且需要主观设定聚类类别个数,不能自动寻找最优聚类类别数量。

使用路径:SPSSAU→【进阶方法】→【聚类】


系统聚类,又叫分层聚类,基本思路是将多个样本各作为一类,计算样本两两之间的距离,合并距离最近的两类成新的一类,然后再计算距离,再合并,直到只有一类为止。

使用路径:SPSSAU→【进阶方法】→【分层聚类】


聚类分析步骤

第一步:数据处理

如果样本数据度量单位不统一,比如有的题项是以七级量表,而有的题项为五级题项。此时应该进行数据处理,即数据标准化处理。常见是进行Z值法标准化。

第二步:进行聚类分析

如果是按样本聚类,则使用SPSSAU的进阶方法模块中的“聚类分析”功能,其会自动识别出应该使用K-means聚类算法还是K-prototype聚类算法;如果是按变量(标题)聚类,则使用分层聚类,并且结合聚类树状图进行综合判定分析。

第三步:聚类效果验证

聚类效果不同于其它分析方法,其它分析方法可以通过P值进行检验。聚类效果需要通过研究经验,并且结合专业知识进行综合判断。良好的聚类分析结果可以有效的识别样本特征,因而聚类出的不同类别样本,应该有着完全差异性特征。

针对聚类样本的特征差异对比,通常是使用方差分析进行对比,如果聚类变量为分类数据,应该使用卡方分析进行对比。如果可以进行有效命名,则说明聚类效果较好,反之则说明聚类分析结果较差,应该返回第二步重新选择聚类类别数量,找出更优聚类结果。

第四步:聚类类别命名

完成第三步聚类效果判断后,已经确认聚类类别数量情况,以及每个类别命名情况。此步骤更为深入分析各个类别的特点,尤其针对于某类别样本在某聚类变量上的突出特点,最终对聚类类别进行命名,结束聚类分析。


更多分析方法的使用说明可到SPSSAU官网查看。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容