R Advanced Application(Manhattan+heatmap+facet+curve fitting)

绘制曼哈顿图

横坐标为SNP在基因组上对应的染色体位点,纵坐标为-log10(P-value)。

曼哈顿图需要的原始数据应包含以下部分:SNP的ID(rs开头),染色体编号(CHR),具体位置(BP),P-value。

使用qqman包的manhattan函数进行图片绘制,函数形式为:

manhattan(rawdata,chr="CHR",bp="BP",p="P",snp="SNP",  ###源数据必须为数据框形式,且每列的抬头必须都是指定的的字符

col=,main="",ylim=c(0,10),cex=,cex.axis=,  ###其他参数设置

chrlabs=paste("Chr",c(1:22),sep=" "),

suggestiveline=-log10(1e-05),  ###绘制提示线

genomewideline=-log10(5e-08),  ###绘制显著线位置

highlight=NULL,logp=T)  ###不对某一部分进行高亮显示,并对p值取对数处理(这些都是默认的参数)

另外,还可以只进行某一染色体上SNP的分析,这种情况下需要对输入的原始数据框进行处理:

manhattan(subset(rawdata,CHR==1),    ###对原始数据取染色体编号为1的子集

xlim=c(0,0.001))

绘制热图

可以使用的函数包括gplots包下的heatmap.2()以及pheatmap包下的pheatmap()

EXCEL中的条件格式-色阶也可以根据数据绘制出热图

与EXCEL不同的是,R语言绘制热图的同时还可以进行层次聚类。下面列出heatmap.2函数为例:

rawdata=read.table("储存路径\\rawdata.txt",header=T,row.names=1)    ###对输入的原始数据一般都要求以样本为列名,以基因名为行名,因此在输入数据时通过header=T命令来定义表头,通过row.names=1的方式来指定第一列作为行名。

heatmap.2(as.matrix(rawdata),  ###输入的数据要求必须是矩阵形式

col=,main="",scale="row",    ###以行为标准进行归一化

dendrogram="both",    ###定义横纵轴是否聚类,这里设置为全部聚类,还可选择"row"、"col"或"none"

trace="none",    ###不需要给每个色块添加踪迹线

density.info="none",      ###指定是否在颜色图注上叠加"histogram"或"density",这里选择都不添加

key=T,symkey=T,        ###分别指定是否需要颜色图注、颜色图注是否以0对称

ColSideColors=c(rep("orange",3),rep("blue",3)))        ###给聚类后的列(样本)按照聚类分组赋予不同的颜色标签并标注在热图上方

绘制复合图

利用base系统的高自由度绘制多种类型图的组合图,绘制高水平函数后叠加低水平函数即可。如,当需要添加另一个坐标轴,则可以利用axis()函数进行设置,如:

axis(side=3,at=seq(0,10,1),labels=seq(0,10,1))    ###含义为:添加上横轴,坐标刻度从0到10,步长为1,坐标标签与其实际刻度一致

绘制拟合曲线

一般使用ggplot2包中的geom_smooth()或stat_smooth()函数,源码如下:

ggplot(data,aes(x,y,color=))+geom_point+geom_smooth(method=lm)    ###在绘制点图的基础上添加拟合曲线,method指定绘制拟合曲线方法,lm是线性回归拟合的意思

ggplot(data,aes(x,y,color=))+geom_point+stat_smooth(method=lm,level=0.99)        ###规定拟合曲线的置信区间(confidence interval,CI)99%

ggplot(data,aes(x,y,color=))+geom_point+stat_smooth(method=lm,level=0.99,se=F)  ###se=F的作用为禁止呈现置信区间

ggplot(data,aes(x,y,color=))+geom_point+geom_smooth(method=loess)      ###loess是指广义的拟合

绘制分面图并添加注释

分面

主要使用ggplot2包中的facet_wrap()或facet_grid()函数:

facet_wrap(~factor,scales='free')将数据根据某个指定的因子分成独立的几张图,scales=‘free’可以使y轴坐标随着数据大小改变;facet_grid(~factor,scales='free')或facet_grid(factor~.,scales='free')也具有同样的效果,不同之处在于可以参考的因子可以是多个。

添加注释

主要使用geom_text()函数,如果需要给每个分面添加注释,则源码如下:

+geom_text(x,y,data=,aes(label=)),x与y分别指定label的出现位置,data必须是数据框,由上述作为分面依据的factor要求每个分面呈现的注释两列构成,一一对应,aes()后指定label为注释列的列名即可

eg:

每个分面都添加同一个注释则直接使用+annotate("text",x,y,label)即可

unique(data$colname)可以将数据中某一列提取出来呈现,并去除冗余值

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容