相关性热图

关于相关性,表示数据之间的相互依赖关系。但需要注意,数据具有相关性不一定意味着具有因果关系

相关性在组学数据挖掘中应用非常广,如样本的重复检验、基因的共表达分析、微生物群落的共发生网络分析等。


相关性分析其实较为简单,用R语言自带的cor()函数非常容易计算得到两两变量间的相关系数。下面我们就来看下如何用R语言实现相关性计算并绘制带有显著性星标的相关性热图。

1.相关系数计算

以R自带的数据集mtcars为例,直接计算矩阵或数据框对应列之间的相关性系数。

#查看范例数据的前6行;
head(mtcars)
image
#计算mtcars数据框的相关性系数;
cor<- cor(mtcars)
class(cor)
#查看得到相关性系数矩阵的前5行,前5列;
cor[1:5,1:5]
image

2.绘图样式

#安装R包;
install.packages("corrplot")

#载入相关R包;
library(corrplot)
#默认的绘制方法是 "circle",图形的样式还可以是"square"、"ellipse"、"pie"和"color"等,其中method = "number"时,只显示相关性系数;
corrplot(cor, method = "square")
image
#可绘制lower、lower、full三种布局方式的热图,当然也可以混合显示;
corrplot.mixed(cor, lower = "square", upper = "circle", tl.col = "black")

3.聚类顺序调整

#常见的排序方式有 "AOE", "FPC", "hclust", "alphabet";
#"AOE" 是指按特征向量的角度排序(angular order of the eigenvectors);
#"FPC" 是按照 first principal component 的顺序排序;
#"hclust"是按照分层聚类的结果排序;
#"alphabet"按照名称字母顺序排序。
corrplot(cor, order = "hclust")
image
#如果是选"hclust",还可以根据聚类结果添加矩形框;
corrplot(cor, order = "hclust", addrect = 2)

4.调整颜色

#自定义渐变颜色;

col2 <- colorRampPalette(c("#77C034","white" ,"#C388FE"),alpha = TRUE)

#使用这些渐变颜色;
#addgrid.col调整网格颜色;
#outoutline指定图形描边;
corrplot(cor, order = "hclust", addgrid.col = "grey70",type = "upper",
outline = "orange",col = col2(100),method = "square",diag = F)
image
#Tips:这里的col2的对象类型是函数!
col2(100)
class(col2)
#自定义文本标签颜色:
#tl.* 系列参数用于调整文本标签;
#tl.col (text label color) 调整文字标签颜色;
#tl.srt (text label string rotation) 调标签角度(横轴方向);
#tl.cex调字体大小;
#使用r自带颜色集cm.colors的效果如下;
corrplot(cor, order = "hclust",col = cm.colors(100),method = "square",
tl.col="black",tl.cex = 0.8)
image

5.图例调整

# cl.* 系列参数用于调整图例;
#cl.ratio 调整颜色条的宽度;
#cl.align调整颜色条刻度标签的对齐方式;
#cl.length指定颜色条标签个数;
corrplot(cor, order = "hclust",col = col2(100),method = "circle",
cl.length=5,addgrid.col = NA,outline = "grey60",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2)
image
#绘制上三角热图;
corrplot(cor, order = "hclust",col = col2(100),method = "square",
cl.length=5, type = "upper",diag = F,
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2)
image
#去掉图例和标签;
corrplot(cor, order = "hclust",col = col2(100),method = "square",
tl.col="black",tl.cex = 0.8,cl.pos = "n",tl.pos = "n")

6.显示数值

#添加显著性标记:
#使用cor.mtest做显著性检验;
res1 <- cor.mtest(mtcars, conf.level = .95)
res2 <- cor.mtest(mtcars, conf.level = .99)

#提取p值矩阵;
p.mat = res1$p
p.mat[1:5,1:5]
image
#指定显著性水平,不显著的为空白;
corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = .05,insig = "blank",addgrid.col="white")
image
#显示P值;
corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = -1,pch.cex=1,
insig = "p-value", pch.col = "white")

#显示相关系数;
#par(lty=2)可指定线的粗细,遗憾的是会作用到图例的线条;

corrplot(cor, order = "hclust",col = col2(100),method = "color",
cl.length=5,addgrid.col="white",cl.pos = "r",
addCoef.col="black",number.cex=0.6,number.digits=1,number.font=1,
tl.col="black",tl.cex = 0.8,cl.ratio = 0.2)
image
#缺失值的展示,默认是用“?”,也可以自定义;
#corrplot(cor, na.label = "NA")

7.添加显著性星标标记

#insig为"p-value",不显著的格子显示p值;
#insig为"label_sig",可用于显示不同显著水平的星标;
#insig为"pch" (default),不显著的格子显示pch值对应图形;

corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = c(.001, .01, .05),outline="white",
insig = "label_sig",pch.cex = 1.2, pch.col = "white")
image

8.推荐另一个R包ggcor

上文的corrplot包是基于R基础绘图函数创建的,那么又没有基于ggplot2的呢?有,比如相对应的ggcorrplot包,不过我这里推荐另一个R包:ggcor 。

#安装方法:
# install.packages("devtools")
devtools::install_github("houyunhuang/ggcor")
#载入R包;
library(ggcor)
library(ggplot2)
#直接快速绘制整个相关性热图;
quickcor(mtcars, cluster = TRUE,cor.test = TRUE) +
geom_colour() +
geom_mark(size=3,color="white",fontface=1)+
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 1)
image
#直接绘制上三角热图;
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_colour(data = get_data(type = "upper")) +
geom_mark(data = get_data( type = "upper"),size=3,color="white",fontface=1)+
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 0.6)
image
#直接绘制上三角“方块”热图;
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_square(data = get_data(type = "upper")) +
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(size = 0.6)
image
#直接绘制上三角“气泡”热图;
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_circle2(data = get_data(type = "upper"),colour="white") +
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 0.6)
image

拓展阅读

方差(Variance):每个样本值与全体样本值的平均数之差的平方值的平均数,用于衡量一个变量的数据和期望值离散程度,公式如下,其中,σ2 即D(X)、Var(V),为总体方差,X为变量,μ为总体均值,N为总体个数。

image

image

协方差(Covariance):用于衡量两个变量的总体误差。而方差可看作是协方差的一种特例,即当两个变量是相同的时候。公式如下:

image

可以看出,若X,Y正相关(变换趋势相同),则协方差值为正;变化趋势相反则协方差值为负。

相关系数(Pearson):相关系数是研究变量之间线性相关程度的指标,而相关关系是一种非确定性的关系,数据具有相关性不能推出有因果关系。相关系数的计算公式如下:

image

其中,公式的分子为X,Y两个变量的协方差,Var(X)和Var(Y)分别是这两个变量的方差。当X,Y的相关程度最高时,即X,Y趋近相同时,很容易发现分子和分母相同,即r=1。

好啦,本次就分享到这里啦,不知对你有没有启发呢?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容