做完转录组差异表达或者其他的一些分析拿到一些基因名称之后下一步通常是做一些注释,比如GO或者KEGG的注释,注释好以后通常是富集分析。如果是研究比较多的物种,可以直接使用R语言包clusterProfiler
做富集分析当然是最好,最后可以很少的代码拿到很漂亮的结果图。但是如果是比较小众的物种,没办法借助clusterProfiler
这个R包的话,如何得到和clusterProfiler
一样的可视化结果呢?今天的推文介绍一下相关的R语言ggplot2作图代码
clusterProfiler能出的图有柱形图、气泡图、网络图、热图等
今天的推文只介绍柱形图和气泡图,网络图和热图相对比较复杂。等我研究明白了再来介绍
首先是示例数据集
这个是kegg富集分析的结果,具体是什么软件得到的结果不太清楚
如果是柱形图,横坐标通常是generatio,纵坐标是 kegg term,用adjusted p value映射颜色。这里generation (k/n)我的理解是n是自己感兴趣的基因,k是注释到某个通路的基因 (不知道是不是这个意思,欢迎大家留言讨论这个generatio)
这个kegg的富集分析里没有自己感兴趣的基因n的数据,但是我们自己做的富集分析肯定是知道这个的n的数值的,这里我假设是500.
以下是ggplot2的作图代码
读取数据
dat<-read.table("kegg.txt",
sep = "\t",
header=T)
colnames(dat)
根据adjusted p value 筛选数据 这里我设置 adj.pvalue<0.0001.(这里根据什么标准设置这个阈值我也不太清楚,欢迎大家留言讨论)
library(tidyverse)
dat %>% filter(Corrected.P.Value<0.0001) -> dat01
dim(dat01)
dim(dat)
最基本的柱形图
library(ggplot2)
ggplot(dat01,aes(x=Input.number/500,y=Term))+
geom_col(aes(fill=Corrected.P.Value))
根据generatio的大小排序
ggplot(dat01,aes(x=Input.number/500,
y=reorder(Term,Input.number/500)))+
geom_col(aes(fill=Corrected.P.Value))
接下来是对细节的一些调整,包括更改配色,图例的标题等等
library(see)
ggplot(dat01,aes(x=Input.number/500,
y=reorder(Term,Input.number/500)))+
geom_col(aes(fill=Corrected.P.Value))+
scale_fill_material_c(name="adjusted p value")+
labs(x="GeneRatio",y=NULL)+
theme_bw()+
scale_x_continuous(expand = c(0,0),
limits = c(0,0.65))+
theme(panel.grid = element_blank())
这里还会经常遇到一个问题就是y轴的文字如果比较长,左侧就会看起来很多,看起来不好看,这个时候可以在文字里插入一个换行符\n
示例代码可以直接在公众号后台留言20220206
获取,这次的示例数据不提供
欢迎大家关注我的公众号
小明的数据分析笔记本
小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!