GSVA全名Gene set variation analysis(基因集变异分析),是一种非参数,无监督的算法。与GSEA不同,GSVA不需要预先对样本进行分组,可以计算每个样本中特定基因集的富集分数。换而言之,GSVA转化了基因表达数据,从单个基因作为特征的表达矩阵,转化为特定基因集作为特征的表达矩阵。GSVA对基因富集结果进行了量化,可以更方便地进行后续统计分析。如果用limma包做差异表达分析可以寻找样本间差异表达的基因,同样地,使用limma包对GSVA的结果(依然是一个矩阵)做同样的分析,则可以寻找样本间有显著差异的基因集。这些“差异表达”的基因集,相对于基因而言,更加具有生物学意义,更具有可解释性,可以进一步用于肿瘤subtype的分型等等与生物学意义结合密切的探究。
基本原理
GSVA算法接受的输入为基因表达矩阵(经过log2标准化的芯片数据或者RNA-seq count数数据)以及特定基因集。步,算法会对表达数据进行核密度估计;第二部,基于步的结果对样本进行表达水平排序;第三步,对于每一个基因集进行类似K-S检验的秩统计量计算;第四步,获取GSVA富集分数。最终输出为以每个基因集对应每个样本的数据矩阵。
GSVA****术语解读
无监督算法
无监督算法常常被用于数据挖掘,用于在大量无标签数据中发现些什么。它的训练数据是无标签的,训练目标是能对观察值进行分类或区分等。
核密度估计
核密度估计(kernel density estimation)在概率论中用来估计未知的密度函数,属于非参数检验方法之一。
数据要求
1、特定感兴趣的基因集(如信号通路,GO条目等),列出基因集中基因
2、基因表达矩阵,为经过log2标准化的芯片数据或者RNA-seq count数数据(基因名形式与基因集对应)
下游分析
1、基因集(如信号通路)的生存分析
2、基因集(如信号通路)的差异表达分析
3、基因集(如信号通路)的相关性分析
图形示例:
图注
纵轴代表各个基因集(图中为信号通路),横轴代表各个基因集在不同分组的表达差异度(moderatedt-statistic)。
应用示例:
1、GeneExpression Predicts Histological Severity and Reveals Distinct MolecularProfiles of Nonalcoholic Fatty Liver Disease.(于2019年8月发表在scientific reports,影响因子4.011)
基因表达数据预测非酒精性脂肪肝的组织学分期和分子分型
作者研究了非酒精性脂肪肝不同肝纤维化阶段和不同非酒精性脂肪肝活动度评分样本基因表达模式的差异。文中利用GSVA研究了不同肝纤维化阶段和不同非酒精性脂肪肝活动度评分样本中通路表达的差异。
2、Immuno-subtypingof breast cancer reveals distinct myeloid cell profiles and immunotherapyresistance mechanisms(于2019年9月发表在Nat Cell Biol.,影响因子17.728)
乳腺癌中与髓样细胞特征和免疫耐药机制相关的的不同免疫分型研究
作者利用小鼠模型研究了乳腺癌不同分型的免疫细胞和基因表达差异,文中利用GSVA研究了不同不同免疫分型中信号通路的表达差异。