富集分析第二弹

1.什么是富集分析

富集分析,来自于Enrichment这个词语

For example, given a set of genes that are up-regulated under certain conditions, an enrichment analysis will find which Ontology terms are over-represented (or under-represented) using annotations for that gene set.

通俗来说:富集分析是基于一个先验的知识图谱将输入内容进行聚类分析,得到聚类后结果。

上句话中逐个概念解析:

  • 输入内容:一组基因或者基因产物(RNA、蛋白质)

  • 知识图谱:往往是由符号连接的树状结构(DAG有向无环图)。

  • (1)有可能是描述功能的知识图谱,例如GO:描述“单个基因如何在分子,细胞和生物水平上的生物学贡献”。

  • (2)也可能是描述代谢通路的知识图谱,例如KEGG:一个整合了基因组、化学和系统功能信息的综合数据库,其中用的最多的数据库是描述基因通路的KEGG pathway

  • 聚类:基于知识图谱进行映射分类

  • 输出:

  • (1)富集结果。输入内容所映射的分类结果,一般包括数量和p值

  • (2)可以查看具体的分类的注释信息(知识库所体现的委员会意见和文献)

  • (3)具体分类所对应的局部知识图谱

2.数据依赖和结果解读

image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">GO 富集结果(柱状图)</figcaption>

结果解析:我们可以基于柱状图,清楚的看出,每一个聚类后结果(横轴下方的字段),以及每一个分类所对应的基因/基因产物数量(此图中为蛋白质数量)


image

上图是气泡图形式,由于GO有三个互不交集的ontology本体,所以要单独分区展示。气泡图比柱状图可以多展现1个维度,在上图中,体现了4个维度信息:

(1)气泡表示分类条目

(2)气泡大小表示基因/基因产物数量。

(3)增加了p-value的展示。p值的负对数分配给y轴(越高就越重要),统计学基础是超几何分布。(从总的N个基因中挑出n个基因,作为分母(这是背景基因),分子则是M个基因(我们的差异基因,这是前景基因),有k个落在了某通路里,有n-k个不落在了某通路里,然后使用超几何分布来对它们进行计算,即前景基因落在某通路的比例是否高于背景基因在这一通路的比例

(4)表达量的上下调。横轴zscore表示是表达量是高了还是低了(一般应用于RNA和蛋白中,基因一般不涉及)。 [图片上传失败...(image-efb449-1611106941603)]


image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">点击一个分类,可以查看其所对应的局部知识图谱</figcaption>

3.富集分析要达到什么目的

得到目标对象(基因或者基因产物)的富集结果(词条)后,通过查看网站对词条的注释声明,来验证或判断目标对象作为生物标志物的合理性。

image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">方法论示例</figcaption>

示例1:《与胰腺癌相关的重要基因本体论术语和生物学途径分析》IF: 2.197

胰腺癌是一种严重的疾病,每年导致全世界三万多人死亡。为了设计有效的治疗方法,许多研究人员致力于研究这种疾病的生物学过程和机制。但是,这还远未完成。在这项研究中,我们试图通过采用一些现有的计算方法来提取胰腺癌的重要基因本体论(GO)术语和KEGG途径。使用富集理论,从GO术语和KEGG途径衍生的特征代表了已被证实与胰腺癌相关且尚未被证实的基因。

示例2: 《使用基因本体论术语和KEGG途径进行化学毒性作用分析》 IF: 3.681

方法:采用GO术语和KEGG途径富集理论对每种化学物质进行编码,并使用最小冗余最大相关性(mRMR)分析GO术语和KEGG途径。基于通过mRMR方法获得的特征列表,提取了最相关的GO项和KEGG途径。
结果:发现了一些重要的GO术语和KEGG途径,这些结论对确定化学毒性作用具有重要意义。
结论: 几个GO术语和KEGG途径与所有研究的毒性作用高度相关,而某些则对某种毒性作用具有特异性。

4.富集分析工具

GO功能富集分析、KEGG pathway富集分析、GSEA功能富集分析、reactome通路富集分析

(1)David——The Database for Annotation, Visualization and Integrated Discovery ,支持在线进行GO功能富集分析。工作组很多华人(从名字上看)

(2)GOrilla——GeneOntology enRIchment anaLysis and visuaLizAtion tool,支持在线进行GO功能富集分析。

(3)KOBAS——KEGG Orthology Based Annotation System,支持在线进行pathways通路分析 (KEGG PATHWAY, Reactome, Biocyc, Panther), 关联疾病分析diseases (KEGG DISEASE, OMIM, NHGRI GWAS Catalog), 和GO 功能富集。北大团队做的。

(4)clusterProfiler: universal enrichment tool for functional and comparative study。推荐一个R分析工作包,是生信分析领域大牛Y叔写的,几乎能支持市面上常见的各类功能、通路、关联疾病分析,受science大力推荐(反正Y叔公众号上他自己是这么说的,有没有忽悠成分咱就不管了哈,但是吃过的都说香)。

5.演示

KOBAS为例,演示两个流程:

(1) GO分析

step i :选择“基于基因列表进行富集分析”

image
image

step ii:在计算页面等一会,查看分析结果

image
  • 这个页面每两秒自动刷新一次,如果数据量较多,计算时间较长,你也可以记住这个页面的url,等吃完饭再来看结果。
image
image
  • 康康是哪些基因被富集在“生物起源细胞组件”中了

step iii:查看GO的DAG图

  • 点击GO对应的蓝色链接,会跳转到GO网站上去
image
image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">GO:3A004408</figcaption>

  • 效果好像没有预想的给力。。。

也有这样的:

image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">GO:0045893</figcaption>

(2)KEGG pathway分析

step i: 参数选择KEGG

image

step ii: 查看计算结果

image

step iii: 查看通路图

image
  • 看,癌症通路非常复杂

有些情况下KEGG会报错:

image

解决方法:注意将url的末尾添加一个/符号,即可正常展示。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352

推荐阅读更多精彩内容