[数学建模第五讲] 皮尔逊相关系数

皮尔逊相关系数

目录

两种最常用的相关系数:皮尔逊person相关系数和斯皮尔曼spearman等级相关系数。

他可以用来衡量两个变量之间相关性的大小,根据数据满足不同的条件,我们要选择不同的相关系数进行计算和分析。

注:用皮尔逊相关系数进行分析时,选取两两变量,需要 通过作图 看出两两变量 有线性相关性 才可进一步获知其相关系数。

若上述满足了,得出了皮尔逊相关系数,还要看每个相关系数是否显著异于0,这样之后才能看出两两变量线性相关性有多大。

但是此时样本数据需要满足 正态分布,若不满足不可进行假设检验。因此有几种检验数据是否正态分布的方法。

若满足正态分布,得出了p值矩阵,和显著性比较后可以知道是否显著异于0,用*表示出来,这才完成了相关性检验的步骤,得出了这个两两变量间是显著正相关还是负相关,或者是不显著的相关。

皮尔逊相关系数介绍

总体 ——所要考察对象的全部个体叫做总体.
我们总是希望得到总体数据的一些特征(例如均值方差等)
样本 ——从总体中所抽取的一部分个体叫做总体的一个样本.

1. 总体皮尔逊相关系数

  • 先算均值
  • 再算协方差
  • 再算标准差(方差)
  • 最后算相关系数
image.png

2. 样本皮尔逊相关系数

image.png

两者的区别只在于n变成了n-1.

相关性可视化

通过绘制散点图可以很容易地判定两个数据对象x和y之间的相关性。

  • x与y趋势相反为负相关
  • x与y趋势相同为正相关
  • 相关系数绝对值越接近1,相关性越大
image.png

皮尔逊相关系数的一些误区

  1. 相关系数很大,但是图像不是线性相关

    • 非线性相关也会导致线性相关系数很大,例如图2。
    • 离群点对相关系数的影响很大,例如图3,去掉离群点后,相关系数为0.98。
    • 如果两个变量的相关系数很大也不能说明两者相关,例如图4,可能是受到了异常值的影响。
image.png
  1. 图像有相关性,但是相关系数很小

    • 相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)
image.png

因此:

  1. 必须先确定两个变量是线性相关的,然后才能通过相关系数知道相关程度如何。
  2. 在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行。

描述性统计

对整体的数据进行不同角度的统计。

用matlab统计

image.png

用Excel统计

数据-数据分析

image.png

用SPSS统计

image.png

矩阵散点图:两两变量间作图

用于查看两两变量间的关系,看看是否有线性关系

image.png

求皮尔逊相关系数的函数corrcoef()

可以对一个矩阵两两列求相关系数,也可以求给的两向量的相关系数。

image.png

美化相关系数矩阵

这里用excel来做

  1. 对获得的矩阵复制到excel中,调整行高,使他为正方形

  2. 然后选中数据,然后条件格式|色阶即可

image.png
image.png
  1. 条件格式|管理规则里修改改规则,把最小值设为数值-1,最大值设为数值1,因为相关系数在[-1,1]之间。这样的图才准确

假设检验

假设检验一般步骤:

image.png

假设检验-p值:

image.png

对皮尔逊相关系数进行假设检验,得显著性水平

手动计算出检验值和临界值,进行假设检验

第一步:提出原假设H_0和备择假设H_1

  • 已知皮尔逊相关系数r,我们想检验他是否显著地异于0
  • H_0:r=0 \,\,r和0没有显著差异\,\, H_1:r!=0 \,\,r和0有显著差异

第二步:在原假设成立的前提下,利用要检验的量(r)构造符合某一分布的统计量

​ 对于皮尔逊相关系数r而言,在满足一定的条件下,我们可以构造出统计量:
t=r\sqrt{{n-2}\over{1-r^2}}
t是服从自由度为n-2的t分布。至此我们根据r构造出了一个t分布(证明略)

第三步:将要检验的r值带入该统计量,得到特定值

​ 如相关系数r=0.5,样本数量为30,则t^*=0.5\sqrt{{30-2}\over{1-0.5^2}}=3.055

第四步:根据分布和置信水平找到临界值,就可以找到接受域和拒绝域

  • 方法:
    • 查表:t分布,置信水平0.95,则右侧累积置信水平0.975,自由度28,找到临界值2.048
    • 函数计算:临界值=tinv(0.975,28) % 这个函数是累积密度函数tcdf的反函数
  • 判断结果
    • 检验值>临界值,拒绝原假设-->相关系数r和0有显著差异(即可以视这个相关系数为0)
    • 检验值<临界值,接受原假设-->相关系数r和0没有显著差异

计算p值检验

单个相关系数检验显著性:

已知检验值为3.055,自由度28,双侧检验,求其p值:

p=(1-tcdf(3.055,28))*2 
% tcdf:t分布的累计概率密度函数

另一种便捷方法:直接得出相关系数矩阵及其p值矩阵:

[R,P]=corrcoef(X)
% R 为相关系数矩阵
% P 为p值矩阵

相关系数的显著性水平表示方法

看p值和显著性水平的关系(p在哪个段里):

  • 0-0.01:r和0有很大显著区别,三星
  • 0.01-0.05:r和0有较大显著区别,二星
  • 0.05-0.10:r和0有显著区别,一星
image.png

代码筛选:

star3=P<0.01

star2=(P>0.01) .* (P<0.05)

star1=(P>0.05) .* (P<0.1)
image.png

皮尔逊相关系数假设检验的条件

要进行假设检验,你这个实验数据要符合一些条件,才能进行检验,得显著水平:

image.png

这里只要保证第一个:实验数据符合正态分布即可。

那么,

如何检验数据是否是正态分布?

雅克贝拉检验JB检验(Jarque-bera test)

要求大样本,n>30。

matlab:[h,p] = jbtest(x,alpha)

  • h为结果,1拒绝原假设,0接受原假设。

  • p为p值,与alpha显著水平比较,小于则拒绝原假设,大于接受原假设

  • x为一个向量

  • alpha为显著水平,一般为0.05,此时置信水平为0.95

如:

[h,p]=jbtest(Test(:,1),0.05)

夏皮洛-威尔克检验 (Shapiro‐wilk)

小样本 3≤n≤50。

这里用SPSS检验。

image.png

Q-Q图

要求数据量很大,500以上吧,不然会有偏差。而且QQ图不太常用。


image.png

matlab使用:

qqplot(x)
% x为向量
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容