1.什么是富集分析
富集分析,来自于Enrichment这个词语
通俗来说:富集分析是基于一个先验的知识图谱将输入内容进行聚类分析,得到聚类后结果。
上句话中逐个概念解析:
输入内容:一组基因或者基因产物(RNA、蛋白质)
知识图谱:往往是由符号连接的树状结构(DAG有向无环图)。
(1)有可能是描述功能的知识图谱,例如GO:描述“单个基因如何在分子,细胞和生物水平上的生物学贡献”。
(2)也可能是描述代谢通路的知识图谱,例如KEGG:一个整合了基因组、化学和系统功能信息的综合数据库,其中用的最多的数据库是描述基因通路的KEGG pathway
聚类:基于知识图谱进行映射分类
输出:
(1)富集结果。输入内容所映射的分类结果,一般包括数量和p值
(2)可以查看具体的分类的注释信息(知识库所体现的委员会意见和文献)
(3)具体分类所对应的局部知识图谱
2.数据依赖和结果解读
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">GO 富集结果(柱状图)</figcaption>
结果解析:我们可以基于柱状图,清楚的看出,每一个聚类后结果(横轴下方的字段),以及每一个分类所对应的基因/基因产物数量(此图中为蛋白质数量)
上图是气泡图形式,由于GO有三个互不交集的ontology本体,所以要单独分区展示。气泡图比柱状图可以多展现1个维度,在上图中,体现了4个维度信息:
(1)气泡表示分类条目
(2)气泡大小表示基因/基因产物数量。
(3)增加了p-value的展示。p值的负对数分配给y轴(越高就越重要),统计学基础是超几何分布。(从总的N个基因中挑出n个基因,作为分母(这是背景基因),分子则是M个基因(我们的差异基因,这是前景基因),有k个落在了某通路里,有n-k个不落在了某通路里,然后使用超几何分布来对它们进行计算,即前景基因落在某通路的比例是否高于背景基因在这一通路的比例)
(4)表达量的上下调。横轴zscore表示是表达量是高了还是低了(一般应用于RNA和蛋白中,基因一般不涉及)。 [图片上传失败...(image-efb449-1611106941603)]
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">点击一个分类,可以查看其所对应的局部知识图谱</figcaption>
3.富集分析要达到什么目的
得到目标对象(基因或者基因产物)的富集结果(词条)后,通过查看网站对词条的注释声明,来验证或判断目标对象作为生物标志物的合理性。
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">方法论示例</figcaption>
示例1:《与胰腺癌相关的重要基因本体论术语和生物学途径分析》IF: 2.197
胰腺癌是一种严重的疾病,每年导致全世界三万多人死亡。为了设计有效的治疗方法,许多研究人员致力于研究这种疾病的生物学过程和机制。但是,这还远未完成。在这项研究中,我们试图通过采用一些现有的计算方法来提取胰腺癌的重要基因本体论(GO)术语和KEGG途径。使用富集理论,从GO术语和KEGG途径衍生的特征代表了已被证实与胰腺癌相关且尚未被证实的基因。
示例2: 《使用基因本体论术语和KEGG途径进行化学毒性作用分析》 IF: 3.681
方法:采用GO术语和KEGG途径富集理论对每种化学物质进行编码,并使用最小冗余最大相关性(mRMR)分析GO术语和KEGG途径。基于通过mRMR方法获得的特征列表,提取了最相关的GO项和KEGG途径。
结果:发现了一些重要的GO术语和KEGG途径,这些结论对确定化学毒性作用具有重要意义。
结论: 几个GO术语和KEGG途径与所有研究的毒性作用高度相关,而某些则对某种毒性作用具有特异性。
4.富集分析工具
GO功能富集分析、KEGG pathway富集分析、GSEA功能富集分析、reactome通路富集分析
(1)David——The Database for Annotation, Visualization and Integrated Discovery ,支持在线进行GO功能富集分析。工作组很多华人(从名字上看)
(2)GOrilla——GeneOntology enRIchment anaLysis and visuaLizAtion tool,支持在线进行GO功能富集分析。
(3)KOBAS——KEGG Orthology Based Annotation System,支持在线进行pathways通路分析 (KEGG PATHWAY, Reactome, Biocyc, Panther), 关联疾病分析diseases (KEGG DISEASE, OMIM, NHGRI GWAS Catalog), 和GO 功能富集。北大团队做的。
(4)clusterProfiler: universal enrichment tool for functional and comparative study。推荐一个R分析工作包,是生信分析领域大牛Y叔写的,几乎能支持市面上常见的各类功能、通路、关联疾病分析,受science大力推荐(反正Y叔公众号上他自己是这么说的,有没有忽悠成分咱就不管了哈,但是吃过的都说香)。
5.演示
以KOBAS为例,演示两个流程:
(1) GO分析
step i :选择“基于基因列表进行富集分析”
- 输入信息是基因名称;
- 物种是智人;
- 粘贴基因列表(列表示例 https://zhuanlan.zhihu.com/c_1231175675459375104)
- 选择参数,进行GO分析
step ii:在计算页面等一会,查看分析结果
- 这个页面每两秒自动刷新一次,如果数据量较多,计算时间较长,你也可以记住这个页面的url,等吃完饭再来看结果。
- 康康是哪些基因被富集在“生物起源细胞组件”中了
step iii:查看GO的DAG图
- 点击GO对应的蓝色链接,会跳转到GO网站上去
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">GO:3A004408</figcaption>
- 效果好像没有预想的给力。。。
也有这样的:
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">GO:0045893</figcaption>
(2)KEGG pathway分析
step i: 参数选择KEGG
step ii: 查看计算结果
step iii: 查看通路图
- 看,癌症通路非常复杂
有些情况下KEGG会报错:
解决方法:注意将url的末尾添加一个/符号,即可正常展示。