不同相关系数的使用场景:
皮尔森相关系数r:是建立在线性相关的基础上,一般指直线,若是曲线则要求两变量数据的间距相同或者数据取自于正态分布数据中,而且极值也会对系数产生影响,所以不是所有的关于数值的数据都可以用皮尔森相关系数来表示两个变量的相关性,皮尔森相关系数的计算公式如下:
Spearman秩相关系数:适用范围较Pearson相关系数广,经常被称为非参数相关系数,不是衡量线性相关的,而是衡量秩序的相关性的。设有两组序列X和Y,其秩序为R(X)和R(Y),这里R(Xi)=k代表Xi是序列X中的第k大(或第k小),则SROCC(X, Y) = PLCC(R(X), R(Y)),其中PLCC是Pearson线性相关系数。SROCC被认为是最好的非线性相关指标,这是因为,SROCC只与序列中元素的排序有关。因此即使X或Y被任何单调非线性变换作用(如对数变换、指数变换),都不会对SROCC造成任何影响,因为不会影响元素的排序。也可以称秩相关系数为单调性相关,也就是只要在X和Y具有单调的函数关系的关系,那么X和Y就是完全Spearman相关的,这与Pearson相关性不同,后者只有在变量之间具有线性关系时才是完全相关的,其次,斯皮尔曼不需要先验知识(也就是说,知道其参数)便可以准确获取XandY的采样概率分布。计算公式如下:
Kendall(肯德尔)系数:肯德尔系数是计算有序类别的相关系数,n个同类的统计对象按特定属性排序,其他属性通常是乱序的。同序对(concordant pairs)和异序对(discordant pairs)之差与总对数(n*(n-1)/2)的比值定义为Kendall(肯德尔)系数。
熵和互信息:是知道一个变量对另一个变量不确定的减少程度,是对离散型数据的相关性计算,熵越大,表明两者的相关性越强,同时也可以使用卡方度量两者之间的相关性和独立性