一些GO及KEGG分析的知识

参考:https://www.omicshare.com/forum/thread-826-1-2.html
https://www.omicshare.com/forum/thread-955-1-1.html
https://www.jianshu.com/p/13f46bebebd4

  • 什么是GO分析?

Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。

  • 什么是KEGG分析?

KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是系统地分析基因功能、链接基因组信息和功能信息的数据库,包括代谢通路(pathway)数据库、分层分类数据库、基因数据库、基因组数据库等。KEGG的pathway数据库是应用最广泛的代谢通路公共数据库。

  • 了解富集分析前,一些关于基因的概念。

每个基因都会对应一个或者多个GO term。而一般研究富集会涉及两个概念:前景基因和背景基因。1)前景基因指研究者关注的重点研究的基因集,而2)背景基因指所有的基因。比如通过实验比较实验组与对照组的转录组测序,前景基因就是对照组vs处理组的差异基因,背景基因就是这两个样本表达的全部基因。

  • 什么是富集?

富集就是为了比较某个GO term在所关注的前景基因中的占比是否要显著高于在所有背景基因中占有的比例。而这个的证明就是通过显著性来评判。

  • 这里作者举了一个生动的例子。

比较深圳市(前景基因)与整个广东省(背景基因)的大学生(某个GO term)的占比,即相比广东省,大学生的数量所占的比例,在深圳市是否更多。而最终求得的占比数值,则通过比较以证明显著性

  • 如何来计算显著性?
    图片来自简书用户:井底蛙蛙呱呱呱

    这个显著性其实就是根据这个超几何分布检验公式计算获得。

先用个形象的例子来理解超几何分布:在超市抽奖,要求从商品(N)中抽取奖品(n),不放回抽取,其中抽得的商品内有指定奖品(M),测定可以抽中指定奖品(k)的概率。

类似的,在GO分析中:

N为数据库中具有GO注释的所有基因数,n为N中具有差异表达的基因数;
M为数据库中注释为某GO term的基因数目,k为注释为某特定GO term 的差异基因数。

KEGG通路中对富集的计算也十分类似。

KEGG 通路富集与GO富集类似,分别指,差异基因(n)中注释到某个代谢通路(pathwayX)的基因数目(k)比例与所有背景基因(N)中注释到某个代谢通路(pathwayX)的基因数目(M)。

  • 超几何分布的运算式:
    ps:由于本人能力有限,不是特别理解超几何分布的数学意义与运算,但根据百度百科定义,可以按照古典概型的抽样来计算。只是在超几何分布下,M可以为任意实数。(不保证语言正确性,只是方便计算理解)



    这里再补充组合的计算:


因此通过上述一顿操作猛如虎后的,即可得到基因n是否在M/k 类中富集(N)的概率(P)。

  • 但这样,似乎还不够。即便得到P的数值很大,但还需要考虑随机情况引起的假阳性结果。
    即若从N中提取得到了n,但由于随机概率,导致k在M中的概率很高的话,(按照之前大学生的例子可以理解为:由于随机概率,导致了刚好抽到了多数的大学生)

  • 可以通过P-value 检验概率的显著性。即假设极端条件下的概率,若P值较小,则可以拒绝极端条件假设,认为极小概率事件可以等同于不能随机出现。

既然P-value 针对的是极端情况,那就让情况更极端一些好了。


图片来自简书用户:井底蛙蛙呱呱呱

即从总的基因N(背景基因)中抽取n个基因(前景基因),其中由i个基因落在符合条件的总的M个基因里。而之前的式子所讨论的概率运算,则正是i=k/m 时的情况下,求得的概率。
为了验证这一概率是否具备显著性,就索性计算 (k/m ~ M)这段更加极端的概率之和,最终得到的P越小,则检验结果越显著。(P<0.5, P<0.1……)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,576评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,515评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,017评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,626评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,625评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,255评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,825评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,729评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,271评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,363评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,498评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,183评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,867评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,338评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,458评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,906评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,507评论 2 359