全新加权基因功能与通路富集分析方法助您科研一臂之力

基因功能与通路富集分析(以下简称富集分析)是最常用到的生物信息分析之一,它可以帮助生物学家和医学家挖掘新知识、确定新靶点、提供新思路和新线索,是大多数实验室常规必备生物信息利器。我们在读文章时经常看到的富集结果图(如下图)都是通过富集分析得到的。相信也已经有很多文章介绍过这些工具的使用,很多文章也是使用这些工具计算得到的结果。

富集分析有灿若繁星的众多工具可供选择,如明星软件DAVID。虽然这些软件背景数据库、软件功能等都有诸多差异,但是这些工具的原理实际上都是首先计算一组基因(比如高通量的实验的差异基因)和某通路基因的相同基因个数,然后利用超几何检验/二项检验等统计学方法计算显著值。根据这些富集到的功能条目中找到你感兴趣的信息和通路,可以进行后续的结果分析和实验设计。

然而目前的富集分析工具或多或少都存在一些问题,比如说经常富集到一些相关性不大的条目,或者某些明显的条目没有被富集上,导致错过一些关键的条目,甚至怀疑自己的实验做的有问题。

其实这并不完全是你的问题,作者观察到,目前富集工具的原理其实就是计数,对上1个基因就是1,2个基因就是2,它们在“平等的对待每一个基因”。然而,在真实的生命活动中,每一个基因都起着不同的作用,甚至某些必须基因的失调会导致细胞的死亡,因此这些基因相较于其他基因可能对生命活动起着更加重要的作用。比如下面的FOXO信号通路,假如某两次分析(假设都是输入100个基因)和该通路都是对上了4个基因,一次是左边红框中的4个基因,另一次是右边红框中的4个基因,传统的富集分析方法都是以“平等”的方式对待基因的(都是靠计数),因此,从数学上来说,两次分析在FOXO信号通路的结果是完全一样的。但是,实际上,左边4个基因和右边四个基因对该通路的影响很可能是不一样的。

在此,向大家推荐一种新的富集分析工具——加权富集分析(WEAT, WeightedEnrichment Analysis Tools,https://www.cuilab.cn/weat/)来解决这一问题。WEAT的原理就是给与不同的基因不同的分数,让基因在假设检验时有所差异,以此来纠正富集结果。该工具收集了大量的基因权重评分数据和基因集数据,并且制作为网页工具,只需轻松一点便可以得到结果并且生成可编辑发表的图片。

下面我给大家演示一下如何使用一个真实的案例来发现未被发现的条目吧。

举例

首先是挑选数据集。这里我们从GEO数据库中找到了一套我们比较感兴趣的数据集GSE157363,这个数据对比了衰老状态下正常人和脑白质损伤患者的脑白质表达谱。首先我们先下载这一套数据,然后通过Limma等R包来找到他差异表达的基因集,相信这个步骤对于大家来说都早已轻车熟路,就不再演示。这里我们查找原文献确定阈值(P-value和FC),最终确定了1715个基因作为差异基因集。这里我给大家提供这个差异基因列表(https://www.cuilab.cn/weat/static/de.csv),大家就不用手动再跑了。

接下来我们就想确定一下“由于衰老导致的脑白质损伤到底和哪些已知功能有关”呢?我们现在只需要打开WEAT的网站(https://www.cuilab.cn/weat/),点击“Analysis”标签,我们发现这里其实已经被填好了,其实这只是作者提供的一个例子,如果只是想体验一下整体流程的话可以直接按最下面的“Submit”查看结果。这里因为我们已经得到了差异基因列表,所以就把他默认的基因列表替换掉就好了。

我们发现输入完差异基因列表之后就是选择基因的重要性分数了,这里提供了很多的评分,其对应的意义可以通过Help界面的表格去一一查找。这里的评分主要是分为五类包括基因保守性、基因重要性、组织表达谱等。每一类分数都代表了不同的含义,大家可以多多尝试,看看结果有什么不同。这里因为我们使用的是脑组织的样本,所以我们可以选一个GTEx的脑组织表达谱分数看看效果,实际上脑组织表达谱的评分倾向于高亮脑组织中高表达的基因。

缩放因子可以改变分数对于结果的影响程度,越大表示影响越大,也更有可能富集出差异的结果。实际操作中可以根据本次富集的结果进行调整,这里我们默认选3。填好后我们按右侧的“Add”按键来添加这个“分数-缩放因子”对,会添加到下面列表中。注意我们不要忘记删除掉网站自带的例子中的肺表达谱的分数。

注意:实际上,我们可以在一次富集过程中选择多个富集分数,来代表多个信息的融合。比如说我们想得到在脑组织中高表达并且在进化中高度保守的基因所富集的条目,我们就可以在选择了脑组织表达谱分数的基础上再添加一个基因保守性分数。这里我们为了简单起见还是只选择脑表达谱的分数,然后点最下面的提交按钮,就可以看到结果了。

结果页面是单独显示的,首先会告诉你提交的本次富集的一些基本信息,紧接着是一个表格包括所有基因集合注释数据库的名称,这里有我们常见的KEGG,GO等。表格中会展示一些基本信息,包括overlap的基因的数量等;同时,表格的右上角集成导出和搜索等功能。富集结果可以通过点击表格每行最右边的按钮来展示,比如说我们这里想看BioCarta中条目的富集结果,结果会以弹出框的形式展示。

富集结果是按照加权方法的P值排过序的,最左侧的加号可以显示更详细的信息,这其中包括了未加权方法得到的P值和这个条目中击中未击中的基因以及对应的评分;右侧则是这些基因评分根据这些基因评分信息绘制的饼图。

在某些结果的最右侧,可能会有一个红色的小徽章,这里代表的意思是对应的条目在传统方法中并不显著,但在加权方法中则显著富集,应当给予重点关注。

在这次富集中,我们可以观察到“Prion Pathway”这个通路只在带权重富集分析方法中富集,而在传统方法中不显著。通过点击加号查看详情信息可以观察到,之所以这个条目富集,主要是由于GFAP这个基因的分数相当的高(7.81),这其实也是符合预期的,因为当前使用的分数是脑组织的表达谱,而GFAP是胶质纤维酸性蛋白,与脑组织功能相关也高表达在脑组织中,所以导致了这个条目的富集。让我们以一个示意图展示这一结果,并又一次说明该工具的原理。

但这样的富集结果是不是真的有道理呢?对此我们可以查阅一下文献,发现有证据表明“Prion Protein”是和衰老相关的帕金森病和阿尔兹海默病相关的(PMID: 30724769, 25364751),而之前我们也提到了这个数据集确实是和衰老的脑组织病变有关。说明我们的富集结果还是有道理的。

最后,在表格的右上角也集成了导出结果和搜索的功能。此外,我们还提供了结果的可视化功能。通过点击可视化按钮,在弹出的对话框中定义一些参数之后就可以得到我们在论文中常见的绘图,如下图所示

图的右上角的照相机按钮可以直接将图片存为SVG格式的矢量图,可以用AI等软件直接做简单修改之后用于发表。因为SVG本身也是XML文件,所以也可以直接用文本编辑软件打开,用查找替换功能直接替换不同文字。

结语

好啦,本次的教程就到这里了,我们这里用了一个简单的例子来说明带权重的富集方法确实有可能找到被传统方法忽视的条目,可能对于打开科研思路有更好的启发,欢迎大家多多尝试。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容