相关分析是研究两两变量间关系的方法,在现实生活中,变量间的关系往往更加复杂。比如,要考察多个变量与多个变量(即两组变量)之间的相关性,该如何分析呢?如果用普通的相关分析,不仅费时费力,也无法很好的解释结果,面对这样的数据最好的方法是使用典型相关分析。
典型相关分析(CCA)用于研究一组X与一组Y数据之间的相关关系情况。它是借助主成分分析思想,从两组变量中提取出一个或少数几个综合变量(即典型变量),从而将对两组变量关系集中到少数几对典型变量间的关系之上。
分析步骤
从步骤上讲:典型相关分析共分为三个步骤。
第一步:提取出典型相关变量【非常重要】
第二步:寻找典型变量与研究变量之间的关系表达式,以及典型变量与研究变量间的关系情况
第三步:典型冗余分析
下面通过一个案例让大家对典型相关有更为直观的认识。
案例应用
(1)背景
为研究运动员体力和运动能力之间的相关关系情况。共收集38个学生样本进行分析。测试数据包括体力指标共7项(反复横向跳、纵跳、背力、握力、台阶试验指数、立定体前屈、俯卧向体后仰);运动能力指标共5项(50米跑时间、跳远、投球、引体向上、耐力跑)。
从上述背景来看,X共由7项表示,Y由5项表示。若是研究X和Y这两组指标之间的相关关系情况,不能通过常规的相关分析直接研究,因而使用典型相关分析进行研究。
(2)操作步骤
分析时如有需要可保存典型变量,用于后续研究。
(3)结果分析
SPSSAU共输出4个表格:表格1用于典型变量表述典型变量之间的相关关系情况;表格2和表格3用于展示典型变量与研究变量间的数学表达式关系和相关有关系;表格4可用于典型冗余分析。
①典型相关系数及显著性结果
表1展现的是典型变量的提取情况,上表中共显示共有5个典型变量被提取,经过显著性检验,有2个典型变量呈现出显著性(P<0.01),因此,最终以两个典型变量为准进行后续研究。
典型变量是成对出现的,也就是说,这两个典型变量事实上分为典型变量X1和典型变量Y1;典型变量X2和典型变量Y2。
对呈现出显著性的典型相关变量间的相关系数值进行分析,第一对典型变量的相关系数值为0.763,第二对典型变量为0.706,相关系数值较高,说明典型变量之间有着紧密的正向相关关系。
②典型系数和典型载荷系数(X)
表2展现的是典型变量X与原始X组分析项间的关系情况。典型系数用于构建典型变量与X组指标的模型公式;典型载荷系数用于具体了解典型变量与X组7项指标之间的相关性。
由于表1中已经得出只有典型相关变量X1,X2通过显著性检验,此时重点关注各指标与典型变量X1,X2的相关情况即可。典型载荷系数绝对值越大说明该项与典型变量之间的相关关系越强:
典型变量X1与X组7项的相关系数(载荷系数)值分别是:-0.598,-0.751,-0.316,-0.380,-0.296,-0.306,-0.277。
典型变量X2与X组7项的相关系数(载荷系数)值分别是:0.311,-0.510,-0.118,0.039,0.773,-0.060,-0.163。
用示意图来表达,如下图所示:
明显的,典型变量与X1(反向横向跳),X2(纵跳)的关系很强,即典型变量更多地提取反向横向跳、纵跳这两项的信息。
典型变量与X2(纵跳),X5(台阶试验指数)的关系很强,即典型变量更多地提取纵跳、台阶试验指数这两项的信息。
③典型系数和典型载荷系数(Y)
同样步骤,分析典型变量y与原始y组分析项间的关系情况。典型变量Y1与原始变量Y1(50米跑时间),Y2(跳远),Y3(投球),Y4(引体向上)的关系很强,载荷系数绝对值均大于0.5,即典型变量更多地提取50米跑时间、跳远、投球、引体向上这4项的信息。
典型变量与Y2(跳远)的关系很强,载荷系数绝对值为0.446,即典型变量更多地提取Y2(跳远)的信息。
用示意图表达,即如下图所示:
④典型冗余分析
表4为典型冗余分析,即了解典型变量对于研究数据的信息提取量情况。上表格展示5个典型变量分别对于X组或者Y组指标的信息提取情况;比如上表中典型变量X1可提取出X组7个指标20.325%的信息量,典型变量X1可提取出Y组5个指标11.826%的信息量。
从上表可以看出:典型变量X1和典型变量X2对于X组7项指标的信息提取量分别是20.325%和14.293%,共计34.62%;以及典型变量Y1和和典型变量Y2对于Y组5项指标的信息提取量分别是46.751%和7.760%,共计54.51%。
(4)分析总结
分析到此,大致可以总结得出:X组与Y组进行典型相关分析,总共提取出两个典型变量对。
典型变量对1更多地提取反向横向跳、纵跳这两项的信息;典型变量对2更多地提取纵跳、台阶试验指数这两项的信息;典型变量对1更多地提取50米跑时间、跳远、投球、引体向上这4项的信息;典型变量对2更多地提取跳远的信息。
除此之外,典型变量对1之间的相关系数值为0.763,并且典型变量对2之间的相关系数值为0.703,典型变量相关系数值均高于0.7,意味着X组7项指标与Y组5项指标之间有着非常紧密的正向相关关系。
最终分析情况可归纳为如下两图:
登录SPSSAU官网体验在线数据分析