统计学相关系数

统计学相关系数
三个相关系数(pearson、spearman、kendall)反映的都是两个变量之间变化趋势的方向以及程度,其值范围在-1和+1之间,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。

1. pearson(皮尔森相关系数)

  1. 公式如下
    \rho_{x,y}=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}=\frac{E((X-\mu_{X})(Y-\mu_{y}))}{\sigma_{X}\sigma_{Y}}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}\sqrt{E(Y^2)-E^2(Y)}}
  2. pearson相关系数收到异常值的影响比较大。

2. spearman相关系数

  1. 秩相关系数,秩可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些限制,公式如下:
    \rho_{s}=1-\frac{6\sum{d_{i}^2}}{n(n^2-1)}
  2. 解释
    d_{i}指的是变量X和变量Y的秩次的差。可以看出,Spearman是根据变量的大小顺序所确定的,所以一个异常值不会对Spearman相关系数的计算造成很大影响。

3. Kendall相关系数

  1. kendall秩相关系数,针对的是分类变量,通常要求的是有序的分类变量,kendall秩相关系数(R)是指设有n个统计对象,每个对象有两个属性的系数。将所有统计对象按属性1取值排列,不失一般性,设此时属性2取值的排列是乱序的。设P为两个属性值排列大小关系一致的统计对象对数。
    公式如下:
    R=\frac{p-(n*(n-1)/(2-p)}{n*(n-1)/2}=\frac{4P}{n*(n-1)}-1
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容