谈谈我们都爱用的相关系数

当师兄和老师就应该选取哪一个相关系数讨论时,我发现我插不上话。这对于具有话痨体质的我,怎么能忍?为了能在组会上多喷几句,我写下了这篇文章……


image.png

太长不看系列

  • 线性关系使用Pearson相关系数
  • 非线性关系但是单调的采用Spearman相关系数

废话超多系列

变量类型

这一部分可看可不看,时间紧急不用看,顶多影响对本文理解的20%。(ps:推荐蹲坑时看)

离散型变量
  • 名义变量(nominal variable):这类变量可以有多个水平,或者说多个分类。举个例子,我们看到宾馆,会将它们分为青年旅舍,单身公寓,快捷酒店,民宿等……在这个例子中,宾馆就是变量,我们可以将它分成很多类型

好了,该刹车了,不要根据宾馆继续联想乱七八糟的东西了,回归正题……


image.png
  • 二分变量(Dichotomous variables):这类变量只能分为两类,比如性别可以分为男女(此处不考虑双性人和变性人等,我真的没有歧视~),惯用手可以分为左手或者右手。当我问你会打篮球么,你的回答只有两个,会或者不会……

会一点点也算会,不要扣这些小细节了。(ps:那些自称只会一点点,但是球场猛如虎的朋友真的让我很绝望啊……)

  • 有序变量/序数变量(Ordinal variables):我也不知道这个变量类型怎么翻译更合适。这个变量和名义变量类似,只是这个变量的类别可以进行排序。举个例子帮助理解吧,问身边的小伙伴你会打篮球么?他们回答:“会一点”,“还行”,“会”,“当然会”。
连续性变量
  • 区间变量:这种变量的一个特点就是可以连续测量,比如温度,长度,质量……这些变量都是可以连续变化的
  • 比率变量:该变量也是一种区间变量,但是具有绝对零点,可以表示不存在该变量。如我们常说的温度,有华氏温度和开尔文温度。华氏温度的0℃仍然是有温度的,并不表示不存在温度,因此它只是区间变量。而开尔文温度,有一个绝对零度的概念,这个绝对零度表示的是此处没有温度,因此开尔文温度是比率变量
相关系数

相关系数一词经常被滥用,深深困扰着我。只学过浙大统计学教材的我,一直以为相关系数是下面这玩意
\rho_{X, Y}=\frac{\operatorname{cov}(X, Y)}{\sigma_{X} \sigma_{Y}}=\frac{E\left(\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right)}{\sigma_{X} \sigma_{Y}}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{E\left(X^{2}\right)-E^{2}(X)} \sqrt{E\left(Y^{2}\right)-E^{2}(Y)}}
后来随着相关性系数的不断应用,我发现怎么还有pearson相关系数,spearman相关性系数……搞科研嘛~,就要严谨认真,于是我就把这些系数的关系好好捋了一遍。

image.png

皮尔逊相关系数

Pearson product-moment correlation coefficient,有时为了简单也写作Pearson correlation coefficient。这是一种评估两个变量之间线性关系强弱的参数,用r来表示。此处划重点,皮尔逊相关系数是描述线性相关关系的,它也是我们最常说的相关系数。

r的值可以取[-1,1]之间,如果r为0,则表示这两个变量之间不存在线性相关。如果r为正数,则表示正相关(即:一个值增大,另一个值跟着增大)。而r为负数,则表示负相关。下面是一个例子:


image.png

从左至右分别是:正相关,负相关,不相关

两个变量之间的线性关系越强,则r的取值越接近1或者-1。当r=±1时,这表示,所有的点都位于拟合的直线上,没有偏离。而r越接近于0,则数据点越偏离拟合线。如下面两图:

image.png
image.png

这里需要提一嘴,我们在线性回归分析中,经常使用R^{2}(决定系数)作为评价拟合好坏的指标,而这个R^{2}恰好就等于r的平方。但是R^{2}作为一个评价拟合好坏的指标,它不仅可以评估线性拟合,也可以评估非线性拟合。即使是线性的也不一定要用最小二乘法进行拟合。因此准确的来说应该是:在带有截距项的线性最小二乘多元回归中,R^{2}等于实测值y和拟合值fd的相关系数r的平方。(一定要注意前面这一大堆的限制条件啊……)

回归正题,继续讨论相关系数。那么,有没有什么标准可以判断两个变量的相关性强弱呢?答案是:有


image.png

在使用皮尔逊相关系数分析数据的相关性时,既可以使用区间变量也可以使用比率变量(忘记的同学,记得回头看看前面讲的),甚至一个变量是区间变量,另一个变量是比率变量也是可以的。两个变量的单位也不需要保持一致,比如我想知道身高与体重的相关性。虽然这俩变量单位不同,但是依然可以进行相关性分析。

如果你还记得上面的皮尔逊相关系数的公式的话,你会发现,谁是自变量谁是因变量,对于最终的相关系数的取值没有影响。
\frac{E\left(\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right)}{\sigma_{X} \sigma_{Y}}=\frac{E\left(\left(Y-\mu_{Y}\right)\left(X-\mu_{X}\right)\right)}{\sigma_{Y} \sigma_{X}}

image.png

最后值得注意的一点是,当皮尔逊相关系数r=1时,并不代表拟合线的斜率等于1。r=1时,斜率可以是3,可以是8,可以是其他非0实数。


image.png
Spearman相关系数

知道了皮尔逊相关系数,你会发现它具有局限性,那就是只能分析线性相关的相关系数。那么非线性的怎么办?我们有Spearman相关系数来帮忙

The Spearman's rank-order correlation度量的是两个有序变量关联的方向和强度,通常记作ρ或者r_s(取值范围也是[-1,1])。因为度量的是有序变量,因此我们度量的变量类型就只能是有序变量,区间变量或者比率变量。

Spearman相关系数度量的是两个变量之间的单调关系,就是“你增我也增或者你增我就减”的关系。因此如果两个变量之间的关系不是单调的,就触碰到了Spearnman相关系数的盲区了(ps:其实是我的盲区,但我怎么可能承认?)下面的图,可以进一步帮助理解:


image.png

仔细看上面的图,你会发现中间的那个关系是单调的但是并非线性的。

这并不是说非单调的数据,我们不可以使用Spearman相关性系数进行分析,正相反,我们可以利用这一系数来判断两个变量之间的关系是否具有单调性。

有的同学会问,这个系数怎么计算呢?凭啥Pearson有Spearman没有,瞧不起谁呢?为了公平起见,Spearman也必须拥有姓名:

  • 变量未经排序:
    \rho=1-\frac{6 \sum d_{i}^{2}}{n\left(n^{2}-1\right)}
    d表示成对秩之间的差,n表示样本数
  • 变量已经排过序
    \rho=\frac{\sum_{i}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sqrt{\sum_{i}\left(x_{i}-\overline{x}\right)^{2} \sum_{i}\left(y_{i}-\overline{y}\right)^{2}}}

具体怎么推导,自己可以动手试试,反正我是懒得动手的

写在最后的话

当我们对数据进行相关性分析时,我们可以使用散点图对数据进行评估。如果是线性的我们就用Pearson相关系数,如果是非线性但单调我们就使用Spearman相关系数。有时候肉眼检查单调性比较费时,我们直接利用Spearman相关系数计算一下相关性即可。

如果你还记得协方差和相关系数之间的关系,可以看一下这里。当两个变量独立时,协方差等于0,不独立时不等于0。既然这样,那为什么不使用协方差判断两个变量间的相关性呢?这是因为协方差缺乏一个度量标准,它的取值并不受限,不像上面那俩一样范围在[-1,1]。因此无法判断,究竟什么值算是相关性较好,什么值属于相关性较差。
此处极力推荐看知乎回答:https://www.zhihu.com/question/20852004/answer/134902061,把协方差和相关系数讲解的通俗易懂

参考文献
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容