Pearson
适用条件:连续,数值相关,变量之间满足正态分布,变量间存在线性关系且等方差(等方差即数据点在回归直线上下均匀分布)
计算公式:
rxy,变量x和y的Pearson相关系数;
n,观测对象的数量;
xi,x的第i个观测值;
yi,y的第i个观测值。
R codes:
cor_pearson <- cor(mtcars, method = 'pearson')
cor_pearson
Spearman秩相关
适用条件:连续变量,秩相关,不要求变量的正态性和等方差假设,对极端值不敏感,数据必须至少是有序的
计算公式:
ρ,Spearman秩相关系数;
di,对应变量的秩之差,即两个变量分别排序后成对的变量位置(等级)差;
n,观测对象的数量。
对两列数据进行排序,并表明序号(秩序),di即为序号(秩序)之差
R codes:
cor_spearman <- cor(mtcars, method = 'spearman')
cor_spearman
Kendall相关
适用条件:有序分类,分类变量
计算公式:
如果xi<yi且xj<yj,或xi>yi且xj>yj,则该关系对是一致的(concordant),反正则不一致(discordant)
如果一致对的数量比不一致对的数量大得多,则变量是正相关的;如果一致对的数目比不一致对的数目少得多;则变量是负相关的;如果一致对的数目与不一致对的数目大致相同,则变量之间的关系很弱
Tetrachoric相关(四分相关)
适用条件:二元变量间的相关,变量服从正态分布,变量连续
计算公式:
描述A与B变量(行变量与列变量)是否相关
Biserial相关
用于测量一组连续变量和一组二元变量的线性关系,二元变量是二分序数类型,具有潜在的连续性
计算公式:
Y0,x=0时变量对的平均值;
Y1,x=1时变量对的平均值;
p,x=1时变量对的比例;
q,x=0时变量对的比例;
σy,总体标准偏差。
这是一组二元变量,与x,y取值都有观(比方说横截面数据类型)
参考:
https://mp.weixin.qq.com/s/JxCRK7BPys1GTb0xd1ZUZg
https://wiki.mbalib.com/wiki/%E5%9B%9B%E5%88%86%E7%9B%B8%E5%85%B3