热图
EXCEL文件要转化为TXT格式,才能被R读取
热图不但能用颜色直观的展示基因的表达量的高低,并且可以通过层级聚类,在二个维度上分别对基因和样本进行聚集
关键
安装pheatmap包
install.packages("pheatmap")
library(pheatmap) #什么都没显示表示安装成功
读取数据
data = read.table("gene_exp.xls",header=T,row.names=1,sep="\t") #读取数据
dim(data) #检查数据,显示多少行,多少列
exp = data[,1:11] #截取表达数据,只要所要行的1-11列
dim(exp) #检查数据,这个时候应该显示所有行的1-11列
热图绘制pheatmap()
pheatmap(exp) #绘制exp的热图
数据处理——均一化
scale() #均一化参数
取值”row”,”column”和”none” #以行、列、无均一化,一般默认无,根据表格选择取值
pheatmap(exp,scale="column") #以列均一化,很丑,而且不能表达出基因间的差异性
pheatmap(exp,scale="row") #以行为均一化,即以基因为标准,寻找基因间的差异
美化
改变边框颜色(一般不改颜色比较好)
pheatmap(exp,scale="row",border="green") #边框颜色变为绿色
pheatmap(exp,scale="row",border=NA) #边框没有颜色
改变字体大小(视情况而定)
pheatmap(exp,scale="row",border=NA,fontsize=7) #改变字体大小为7
改变颜色
pheatmap(exp,scale="row",border=NA,fontsize=7,color=c("green", "blue", "red")) #将颜色从高到低分为红,蓝,绿,最高为红色,最低为绿色
定义自己的渐变颜色
colorRampPalette()
colorRampPalette()
redgreen=colorRampPalette(c("green","black","red"))(100) #将绿、红从低到高分为渐变的100个颜色
pheatmap(exp,scale="row",border=NA,fontsize=7,color=redgreen) #绘制自己定义的颜色的热图
一般不用红绿色,因为红绿色盲,根据具体要求来完成
图例颜色渐变(视情况而定)
bias()
colors=colorRampPalette(c("green","black","red"),bias=4.5)(100) #图例大值一段会占更多范围
pheatmap(exp,scale="row",border=NA,fontsize=7,color=colors)
常见函数
是否显示列名或者行名: show_rownames和show_colnames
是否做聚类: cluster_rows和cluster_cols,视情况而定聚不聚类
设置聚类树的高度: treeheight_row和treeheight_col
是否显示图例:legend
举个例子
pheatmap(exp,scale="row",border=NA,fontsize=10,color=redgreen,show_rownames=F,show_colnames=T,cluster_rows=T,cluster_cols=T, treeheight_row=0, treeheight_col =0,legend=F)
#不显示行名,显示列名,行列都聚类,聚类数行列都为0,不显示图例
显示每个小块的值 display_numbers = TRUE
pheatmap(exp,scale="row",fontsize=10,show_rownames=F,display_numbers = TRUE)
根据树聚集结果分割
cutree_rows, cutree_cols 这两个参数,是根据树分类结果,来分开间隔
pheatmap(exp,scale="row",fontsize=10, show_rownames=F,cutree_rows=2) # 行方向,按照树聚类分为2份
pheatmap(exp,scale="row",fontsize=10, show_rownames=F, cutree_cols=3) # 列方向,按照树聚类分为3份
添加自定义间隔
gaps_col和gaps_row参数,用这两个参数时,对应的方向不能进行聚类
pheatmap(exp,scale="row",fontsize=10,show_rownames=F,cluster_cols=F,gaps_col=5) #在第五列分隔
添加颜色条
annotation_row, annotation_col和annotation_colors参数
定义颜色条数据框
annotation_col=data.frame(type=c(rep("Case",5),rep("Control",6))) #新建一个数据框,共11个,前5个命名为case,后6个命名为control
rownames(annotation_col) = colnames(exp) #将exp中的列名赋值给它
绘制含颜色的热图
pheatmap(exp,scale="row",fontsize=10,show_rownames=F,cluster_cols=F,gaps_col=5,annotation_col=annotation_col)
调整颜色条的颜色
anno_colors=list(type=c(Case="#1B9E77",Control="#D95F02"))
pheatmap(exp,scale="row",fontsize=10,show_rownames=F,cluster_cols=F,gaps_col=5,annotation_col=annotation_col,annotation_colors=anno_colors)
保存热图filename=(xx.pdf/png)
pheatmap(exp,scale="row",fontsize=10,show_rownames=F,cluster_cols=F,gaps_col=5,
annotation_col=annotation_col,annotation_colors=anno_colors,annotation_legend=F,display_number=T, filename="heatmap.pdf")
# 去掉颜色条的图例并保持图片
多级颜色条
annotation_col=data.frame(type=c(rep("Case",5),rep("Control",6)),age=c(24,32,46,32,35,18,25,35,18,25,23),sex=c("male","male","female","female","female","male","female","female","female","male","female"))
rownames(annotation_col) = colnames(exp)
pheatmap(exp,scale="row",fontsize=10,show_rownames=F,cluster_cols=F,gaps_col=5,annotation_col=annotation_col)
计算相关系数
举例
library(pheatmap) #加载pheatmap包
exp=read.table("exp_top30.original.txt",header=T,row.names = 1,sep = "\t") #读数据
matrix=cor(t(exp)) #计算相关系数,只能以列来计算,所以转置一下(如果基因就是列上,就不用转置)
write.table(matrix,"coefficient_matrix.txt",sep="\t") #将相关系数输出到电脑上保存
pheatmap(matrix,cluster_rows=F,cluster_cols=F,display_numbers=T) #行列都不聚类,显示每个格的值