GSEA(Gene Set Enrichment Analysis)
背景
传统KEGG和GO通路富集分析分析:
富集到同一个通路下的有上下调基因,则这条通路的总体表现形式不好体现。
常规富集分析侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这种方式可能由于筛选参数(阈值)的不合理导致漏掉一些关键信息,导致后续的富集不显著,比如,部分差异表达不显著却有重要生物学意义的基因。
亦或,分别提取上调或者下调的差异基因来进行传统富集分析,由于事先根据上调下调(表达量变化趋势)对差异基因进行了筛选,从而回避了上面的问题。但这样的做法有失偏颇,因为Fisher’s精确检验就是想要证明这个差异基因列表不是随机抽样得到的,而事先对差异基因列表的进行上调或下调的过滤,就会对结果的随机性造成了干扰,最后得出的结论其准确性也受影响。
在细胞内发挥生物学功能时,上调和下调基因是共同发挥作用,进行富集分析时,将上下调分开进行分析,也不符合实际情况。
原理
对于两类样本,首先对所有基因进行排序,简单理解就是根据处理后的差异倍数值进行从大到小排序, 用来表示基因在两组间的表达量变化趋势。排序之后的基因列表其顶部可看做是上调的差异基因,其底部是下调的差异基因。--L
GSEA分析的是一个基因集下的所有基因是富集在这个排序列表的顶部还是底部,如果在顶部富集,可以说,从总体上看,该基因集是上调趋势,反之,如果在底部富集,则是下调趋势。 -- S
GSEA的目的是判断S里面的成员s在L里面是随机分布还是主要聚集在L的顶部或底部。
这些基因排序的依据是其在不同表型状态下的表达差异,若研究的基因集S的成员显著聚集在L的顶部或底部,则说明此基因集成员对表型的差异有贡献,也是我们关注的基因集。
富集得分 (ES, enrichment score),反应基因集成员s在排序列表L的两端富集的程度。
计算方式:从L的第一个基因开始,计算累计统计值。遇到一个落在s里面的基因,则增加统计值。遇到一个不在s里面的基因,则降低统计值。每一步统计值增加或减少的幅度与基因的表达变化程度(更严格的是与基因和表型的关联度)是相关的。富集得分ES最后定义为最大的峰值。
正值表示基因集在列表的顶部富集,负值表示基因集在列表的底部富集。
评估富集得分(ES)的显著性。通过基于表型而不改变基因之间关系的排列检验 (permutation test)计算观察到的富集得分(ES)出现的可能性。若样品量少,也可基于基因集做排列检验 (permutation test),计算p-value。
多重假设检验矫正。首先对每个基因子集s计算得到的ES根据基因集的大小进行标准化得到Normalized Enrichment Score (NES),随后针对NES计算假阳性率。
图最上面部分展示的是ES的值计算过程,从左至右每到一个基因,计算出一个ES值,连成线;最高峰为富集得分(ES)。在最左侧或最右侧有一个特别明显的峰的基因集通常是感兴趣的基因集。
图中间部分每一条线代表基因集中的一个基因,及其在基因列表中的排序位置。最下面部分展示的是基因与表型关联的矩阵,红色为与第一个表型正相关,蓝色与第二个表型正相关。
Leading-edge subset,对富集得分贡献最大的基因成员。若富集得分为正值,则是峰左侧的基因;若富集得分为负值,则是峰右侧的基因。
FDR,GSEA默认提供所有的分析结果,并且设定FDR<0.25为可信的富集,最可能获得有功能研究价值的结果。但如果样品数目少,而且选择了gene_set作为Permumation type则需要使用更为严格的标准,比如FDR<0.05。
GS:基因集(通路)的名字。
SIZE:代表该基因集(通路)下的基因总数。(通路规模)
ES:代表Enrichment score,NES代表归一化后的Enrichment score。
NOM p-val:代表p值,表征富集结果的可信度。
FDR p-val:代表p值, 是多重假设检验矫正后的p值,注意GSEA采用pvalue < 5%, qvalue < 25% 对结果进行过滤。
FWER p-val: familywise-error rate (FWER)
Rank at max:
Leading edge: tags表示核心基因在该基因集基因总数的占比,而list表示核心基因占所有基因总数的比例,signal利用这两个指标计算得到。
对于某个基因集下(通路里)的每个基因给出了详细的统计信息。
RANK IN GENE LIST:代表该基因在排序中的位置。
RANK METRIC SCORE:代表该基因排序量的值,即:处理后的foldchange值。
RUNNIG ES:代表累计的Enrichment score。
CORE ENRICHMENT:代表是否属于核心基因,即对该基因集的Enerchment score做出了主要贡献的基因。
软件和基因集下载: <u>http://www.gsea-msigdb.org/gsea/index.jsp</u>
实操
数据准备
1.样本表达量文件:通常用.gct为后缀。
文件第一行以“#1.2”开头;
文件第二行的第一列为基因个数、第二列为样品个数;
文件的第三行为表达谱的矩阵的title信息,第一列为基因symbol/探针号/geneid,第二列为基因/探针的描述信息,第三列以后为样品id。接下来的行对应每个基因/探针在每个样品中的表达信息。文件以tab作为分隔符,先保存成txt文件,然后直接修改扩展名为.gct。
2.样本分类信息:样品表型分类文件需以.cls为后缀。
文件第一行为三个数字,第一个是样品的总数,第二个是样品分为几类,第三个数字通常为1。
第二行也通常三个字符串,第一个为#,第二个为分类1的名称,第三个位分类2的名称。第三行为每个样品的分类信息,0代表分类1,1则代表分类2。文件以空格或者tab分割。
3.预定义基因集(gmx or gmt)——非必需文件,通常用.gmt作为后缀。
若采用GSEA预定义的MSigDB数据库中的功能基因集分析,则无需自己定义该文件。每一行为一个功能基因集,第一列为基因集的名称,第二列为简单描述,第三列及以后列为该功能基因集所包含的基因symbol。基因集包含多少个基因,就列出多少个基因。文件以tab作为分隔符。
导入数据
运行
点击success,查看结果
Leading-edge分析:主要对筛选感兴趣的基因有意义;选择一个或多个显著富集的基因集,查看其内Leading-edge基因的表达和重叠状态。
备注:
通路(pathway):主要描述了一种机理或者现象,可以有信号通路、代谢通路等等是一种描述细胞、组织或个体内的基因、蛋白或代谢产物互作关系的模型,并不是简单地基因列表。
基因集(gene set):它就是无序、无结构的一组基因,我们可以将这些基因定义成参与特定生物过程,可以看到,基因集除了仅仅包含了一些基因以外,似乎没有什么定义,也正因为这样,基因集的定义可以更加广泛,主要看人为需求。
GSEA
对照:用两类样本所有基因(就是所有样本的基因)进行排序得到的基因列表
目的:比对基因集在全样本中的总体表达
这里把某通路里的基因当作一个基因集
GSVA
对照:每个单样本的所有基因得到所有的样本基因列表
目的:比对基因集在不同样本中的表达
参考资料
https://blog.csdn.net/qq_40932679/article/details/116882258
https://blog.csdn.net/qazplm12_3/article/details/106271247
https://zhuanlan.zhihu.com/p/347148653
https://zhuanlan.zhihu.com/p/374731836
Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles | PNAS