1 GO和KEGG富集分析工具:Clusterprofiler包和REVIGO
进行基因功能或生物学通路富集的工具或网站有很多。像DAVID、IPA、GATHE等。我基本采用基于R的Clusterprofiler包。该包抓取最新的KEGG数据进行计算,保证富集结果的可靠性。另外,该包还可以对富集结果进行比较并可视化(基于ggplot2包:http://ggplot2.org/book/)。具体参数设置为:p-value cutoff=0.01, q-value cutoff=0.05, p值矫正方法为BH(即把每个p-value进行矫正,转换为q-value)。
2 去冗余
因为GO条目的分级特性,其富集结果会有冗余,对结果的分析造成影响,其中一个策略是计算两个GO terms之间的语义相似性,去除冗余。
目前主要有两类方法:
2.1 计算语义相似性得分
基于它们的共有父条目的注释统计,计算语义相似性得分,包含Resnik、Lin、Jiang 和Schlicker四种方法;
2.2 基于GO图形结构
Wang提出基于GO的图形结构进行计算。
以上方法,各有利弊,而GOSemsim(GO semantic similarity)是ClusterProfilers包的作者Y叔开发的计算GO terms,sets of GO terms,gene Cluster语义相似性的包,并且提供上述的五种语义相似计算方法。我在进行GO terms集的相似性分析时,一般采取基于Resnik和Lin两种方法的综合方法,简称为simRel方法,利用REVIGO进行分析,然后基于R语言做图。
同样,具体代码和步骤以后再写,先放图