绘制曼哈顿图
横坐标为SNP在基因组上对应的染色体位点,纵坐标为-log10(P-value)。
曼哈顿图需要的原始数据应包含以下部分:SNP的ID(rs开头),染色体编号(CHR),具体位置(BP),P-value。
使用qqman包的manhattan函数进行图片绘制,函数形式为:
manhattan(rawdata,chr="CHR",bp="BP",p="P",snp="SNP", ###源数据必须为数据框形式,且每列的抬头必须都是指定的的字符
col=,main="",ylim=c(0,10),cex=,cex.axis=, ###其他参数设置
chrlabs=paste("Chr",c(1:22),sep=" "),
suggestiveline=-log10(1e-05), ###绘制提示线
genomewideline=-log10(5e-08), ###绘制显著线位置
highlight=NULL,logp=T) ###不对某一部分进行高亮显示,并对p值取对数处理(这些都是默认的参数)
另外,还可以只进行某一染色体上SNP的分析,这种情况下需要对输入的原始数据框进行处理:
manhattan(subset(rawdata,CHR==1), ###对原始数据取染色体编号为1的子集
xlim=c(0,0.001))
绘制热图
可以使用的函数包括gplots包下的heatmap.2()以及pheatmap包下的pheatmap()
EXCEL中的条件格式-色阶也可以根据数据绘制出热图
与EXCEL不同的是,R语言绘制热图的同时还可以进行层次聚类。下面列出heatmap.2函数为例:
rawdata=read.table("储存路径\\rawdata.txt",header=T,row.names=1) ###对输入的原始数据一般都要求以样本为列名,以基因名为行名,因此在输入数据时通过header=T命令来定义表头,通过row.names=1的方式来指定第一列作为行名。
heatmap.2(as.matrix(rawdata), ###输入的数据要求必须是矩阵形式
col=,main="",scale="row", ###以行为标准进行归一化
dendrogram="both", ###定义横纵轴是否聚类,这里设置为全部聚类,还可选择"row"、"col"或"none"
trace="none", ###不需要给每个色块添加踪迹线
density.info="none", ###指定是否在颜色图注上叠加"histogram"或"density",这里选择都不添加
key=T,symkey=T, ###分别指定是否需要颜色图注、颜色图注是否以0对称
ColSideColors=c(rep("orange",3),rep("blue",3))) ###给聚类后的列(样本)按照聚类分组赋予不同的颜色标签并标注在热图上方
绘制复合图
利用base系统的高自由度绘制多种类型图的组合图,绘制高水平函数后叠加低水平函数即可。如,当需要添加另一个坐标轴,则可以利用axis()函数进行设置,如:
axis(side=3,at=seq(0,10,1),labels=seq(0,10,1)) ###含义为:添加上横轴,坐标刻度从0到10,步长为1,坐标标签与其实际刻度一致
绘制拟合曲线
一般使用ggplot2包中的geom_smooth()或stat_smooth()函数,源码如下:
ggplot(data,aes(x,y,color=))+geom_point+geom_smooth(method=lm) ###在绘制点图的基础上添加拟合曲线,method指定绘制拟合曲线方法,lm是线性回归拟合的意思
ggplot(data,aes(x,y,color=))+geom_point+stat_smooth(method=lm,level=0.99) ###规定拟合曲线的置信区间(confidence interval,CI)99%
ggplot(data,aes(x,y,color=))+geom_point+stat_smooth(method=lm,level=0.99,se=F) ###se=F的作用为禁止呈现置信区间
ggplot(data,aes(x,y,color=))+geom_point+geom_smooth(method=loess) ###loess是指广义的拟合
绘制分面图并添加注释
分面
主要使用ggplot2包中的facet_wrap()或facet_grid()函数:
facet_wrap(~factor,scales='free')将数据根据某个指定的因子分成独立的几张图,scales=‘free’可以使y轴坐标随着数据大小改变;facet_grid(~factor,scales='free')或facet_grid(factor~.,scales='free')也具有同样的效果,不同之处在于可以参考的因子可以是多个。
添加注释
主要使用geom_text()函数,如果需要给每个分面添加注释,则源码如下:
+geom_text(x,y,data=,aes(label=)),x与y分别指定label的出现位置,data必须是数据框,由上述作为分面依据的factor和要求每个分面呈现的注释两列构成,一一对应,aes()后指定label为注释列的列名即可
eg:
每个分面都添加同一个注释则直接使用+annotate("text",x,y,label)即可
unique(data$colname)可以将数据中某一列提取出来呈现,并去除冗余值