满月抛江第三难

基因集的概念
GSEA全称Gene Set Enrichment Analysis，GSVA全称Gene Set Variation Analysis，它们都是基于基因集开展的分析，因此我们先要了解基因集的定义。基因集顾名思义就是一些基因的集合，任何一些基因放在一起都可以叫做基因集，但是我们用来分析的基因集要求有一定的生物学意义。最常见的基因集数据库如GO与KEGG，它们一个按照基因本体论将基因分门别类，一个按照代谢通路将相关基因集合在一起。除此之外我们还可以按转录因子调控网络、共表达网络、定义生物状态的marker基因列表等把基因集合成有一定生物学意义的基因集。

MSigDB基因集数据库

GSEA是由Broad研究所开发的一种富集方法，他们在提出该方法的同时还提供了一个基因集数据库——MSigdb。它从位置，功能，代谢途径，靶标结合等多种角度出发，构建出了许多的基因集合，Broad研究所将他们构建的基因集合保存在MSigDB，官网地址如下：http://software.broadinstitute.org/gsea/msigdb/index.jsp在MSigDB中，将所有的基因集划分为以下9大类别：

1. H：hallmark gene sets

特征基因集，由定义生物状态和进程的marker基因组成。

2. C1：positional gene sets

位置基因集，包含人类每条染色体上的不同cytoband区域对应的基因集合。

3. C2：curated gene sets

代谢通路基因集，包含KEGG, Reactome, BioCarta数据库，以及文献和专家支持的基因集信息。

4. C3：motif gene sets

靶基因集，包含了miRNA靶基因集和转录因子调控基因集两大类。

5. C4：computational gene sets

计算基因集，计算机软件预测出来的基因集，主要是和癌症相关的基因。

6. C5：GO gene sets

基因本体基因集，包含了Gene Ontology对应的基因集合。

7. C6：oncogenic signatures

癌症扰动基因集，来源于药物处理肿瘤后基因差异表达数据，包含已知条件处理后基因表达量发生变化的基因。

8. C7：immunologic signatures

根据在人体组织的单细胞测序研究中确定的簇标记物精选而来的。

免疫基因集，包含了免疫系统功能相关的基因集合。

9. C8：| [cell type signature gene sets]

GSEA的分析原理
常规GO/KEGG富集分析需要设定阈值过滤差异基因，阈值太宽富集的结果太多，阈值太严又可能会遗漏一些关键结果。GO/KEGG富集的结果通常还很宽泛，并不能很好地解释生物学现象。有鉴于此，Broad研究所开发了基因集富集分析(GSEA)方法。GSEA使用无监督算法，不用过滤任何基因，配合MSigDB数据库使用，更容易找到解释生物学现象的基因集。其原理如下：

图片

GSEA分析要先将样本做组间对比分析，GSEA自带9种分析方法，分为基因表达值差异分析和相关性分析两大类。对于Case/Contral的实验设计，差异分析方法更为常用，这其中又以默认的信噪比和大家熟悉的差异倍数用的最多。对比分析之后要按结果将基因排序，以差异倍数方法为例，把所有基因按差异倍数(FC)的值降序排列以供后续分析。上图小人脚下的小方块代表排序好的差异基因列表，蓝色之外的其他色块代表属于某个基因集的基因，如黄色属于基因集A，绿色属于基因集B。最下面高低不等的竖条代表与基因列表对应的FC值，红色上调、蓝色下调、黄色没有变化。基因集的富集分析需要经历三步：

基因集A富集分析时，小人从基因列表的左端走到右端，每经过一个蓝色基因扣分，每遇到一个黄色基因加分，扣分时与FC无关，加分时考虑FC的权重。基因集A最终的富集分数(ES)是小人曾经得过的最高/低分，实际公式比这复杂，但基本理念如此。
采用置换检验计算基因集A的显著性，即p值。
基因集A富集分析完成后，按上述同样的方法完成基因集B、C直至所有输入基因集的分析。所有需要富集分析的基因集都计算ES和p值之后，将ES转换为标准富集分数(NES)，并计算校正后p值。

听完我的解释之后再看官方的解释可能更容易理解：

图片

A GSEA overview illustrating the method. (A) An expression dataset sorted by correlation with phenotype, the corresponding heat map, and the ‘‘gene tags,’’ i.e., location of genes from a set S within the sorted list. (B) Plot of the running sum for S in the dataset, including the location of the maximum enrichment score (ES) and the leading-edge subset.

原文链接

科研软件81难之3---GSEA的富集分析原理