GSEA(Gene Set Enrichment Analysis)

富集分析方法

  • ORA Over-representation analysis过表达分析,常见的是GO富集分析和KEGG富集分析;
  • FCS functional class scoring功能集打分,常见的是GSEA;
  • PT pathway topology通路拓扑结构分析,代表是SPIA;
  • NT network topology网络拓扑结构分析;

ORA局限性:

1.有可能在多重假设检验后不存在具有统计学意义的差异基因存在;
2.又或者,具有统计学意义的基因很多,但并不富集于统一的生物学主题;相应的阐述可能冗长、主观,主要依赖生物学家的专业知识;
3.单基因分析可能丢失对通路影响的重要信息;细胞过程通常会对多个基因造成影响; 代谢通路中所有编码基因的表达增加20%对通路造成的影响可能比单个基因增加20倍更重要;
4.不同的课题组研究同一种生物现象时,得到的具有统计学意义的基因list的overlap很少;

GSEA的优势:

1.在基因集的水平上进行分析;
2.基于先验的生物学知识(基因集S);
3.不具有统计学意义的基因也会考虑进去(Gene List L);
4.目的:观察基因集S中的基因在L中是随机分布还是集中在top/bottom(预期是如果富集,会呈现出后面的分布);

GSEA的步骤

1.ES(Enrichment Score)的计算
Kolmogorov-Smirnov test
  • 详细介绍可参见
    https://www.cnblogs.com/arkenstone/p/5496761.html
  • 以gseKEGG为例,K-S test检验的是,treat vs control(geneList-L)的分布与geneSet的分布是否一致,检验得到的结果是ES;
  • geneList为ID依据logFC排序所得,L中的基因在S中,sum increase,不在S中,sum decrease,最终得到的max|sum|即为ES;



2.ES 显著水平的计算
permutation test
  • 详细介绍可参见:
    https://www.plob.org/article/3176.html
  • gene_set permutation生成随机基因集(我的理解是,从geneList中随机抽取(number of genes in gene_set)个基因得到),产生ES(S, pi) ,集合所有ES(S, pi) 形成直方图,对ES的显著水平进行检验(p=percentage of ES(S, pi)>=ES(S));
    p.vlaue的解释见:
    https://www.jianshu.com/p/eede4ea05f59
3.多重假设检验校正
FDR
  • FDR代表某个基因集的特定NES是假阳性的概率;样本量大(每组至少7个)的情况,使用sample_label permutaion,FDR的阈值建议是0.25,即4个假设中至少有3个是可用的;但如果样本量少的情况下,使用gene_set permutation进行分析,此时,FDR的cutoff应该更严格一些,比如5%
  • FDR是两个分布的比率:(1)permutation背景下,实际的ES versus 所有基因集的所有permutation的ES(2)实际基因集背景下,实际的ES versus 所有基因集的ES;例如,如果分析四个基因集并执行1000次permutation,则第一个分布包含4000个数据,第二个分布包含4个。
  • 建立直方图(所有S和所有permutation),于某个NES(>=0)而言, FDR为NES(S,pi)>=NES的比例(permutation水平下),除以基因集水平下,NES(S)>=NES*的比例;

不咋华丽的分割线,结合上clusterprofiler的gseKEGG函数理解下:

gseKEGG

kk_gse <- gseKEGG(geneList     = geneList,
                  organism     = 'mmu',
                  nPerm        = 1000,
                  minGSSize    = 10,
                  verbose      = FALSE)

课程分享
生信技能树全球公益巡讲
https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g
B站公益74小时生信工程师教学视频合辑
https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw
招学徒:
https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容