参考:
1.ref1
2.微信:新年开工——相关性分析了解一下?
成对数据的相关性分析流程:
计算相关系数,主要用R里的cor()函数;
计算相关系数显著性,用R里cor.test()函数和cor.mtest()函数,后者可展示95%CI
其中有3种方法可供使用,分别是Pearson检验、Spearman检验和Kendall检验。
一.Pearson相关
要求:
① 实验数据通常假设是成对的来自于正态分布的总体;
② 两个数据序列的数据要一一对应,等间距等比例(观测值是成对的,每对观测值之间相互独立)。数据序列通常来自对同一组样本的多次测量或不同视角的测量。
③实验数据之间的差距不能太大,无极端值。极端值对积差相关系数的影响极大,因此要慎重考虑和处理,必要时可以对其进行剔出,或者加以变量变换,以避免因为一两个数值导致出现错误的结论。
r取值:
对于一个具体的r取值,根据经验可将相关程度分为以下几种情况:当|r|≥0.8时,可视为高度相关;0.5≤|r|<0.8.可视为中度相关;0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。(建立在显著性检验的基础之上才可以这样解释)
二.Spearman秩相关
要求:
① 不服从双变量正态分布的资料;
② 总体分布类型未知;
③ 两个数据序列的数据一一对应,等间距等比例。数据序列通常来自对同一组样本的多次测量或不同视角的测量。
注意:对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。
三.Kendall秩相关
要求:
当既不满足正态分布,也不是等间距的定距数据,而是不明分布的定序数据时,不能使用Pearson相关和Spearman相关。此时,在相关分析中引入“一致对”的概念,借助“一致对”在“总对数”中的比例分析其相关性水平。
小结:
①Pearson相关适用于正态分布、连续变量或是等间距测度的数据;Spearman相关适用于不明分布、连续变量;Kendall相关适用于两个分类变量均为有序分类的情况;
②当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关;
③若不恰当用了Kendall等级相关分析则可能得出相关系数偏小的结论;因此对一般情况默认数据服从正态分布的,宜用Pearson分析方法。