bulk转录组最主要的作用就是根据基因表达的变化找到其中蕴含的通路机制
常规的GO和KEGG分析,属于超几何富集算法,使用的基因数据源是我们根据实验组vs对照组所获得的差异基因,其中差异基因则需要根据设置的阈值进行判断,具有一定的主观性。并且在进行DEseq2差异表达分析时,低表达基因的真实信号较弱,容易被技术变异和背景噪声所覆盖,从而不被认为成差异表达基因。
而基因富集分析GSEA(gene-set enrichment analysis)无需做差异分析,直接拿所有基因的表达量即可找到实验组和对照组有一致性差异的感兴趣的通路。好处就是,不经过差异基因筛选,保留了这些关键信息,进而找到那些差异不很明显但是基因差异趋势很一致的功能基因集。
做GSEA富集分析需要准备两个输入文件,一个是基因表达数据文件,另外一个是实验设计数据文件,表达数据文件就是基因在每个样品里面的一个表达量,这就是RNA-seq标准化处理后的表达矩阵,即DESeq2分析后导出的“normalized_count.txt”文件。
它的第一行是固定格式#1.2。第二行是基因的数目和样品的数目。第三行是样品的名称,建议顺序按照组别进行放置。Description这一列必须有可以复制前面基因名一列。
行是样本,列是基因名(之间不能有空格)命名不能是“-1”可以是下划线“_1”
所有基因的表达矩阵需要去除没有表达的基因行,即表达值全为0的
基因表达数据文件中的基因名称形式需要与使用的GMT基因集中的基因名称一致
先以制表符分隔的.txt作为保存文件的类型,然后修改后缀为.gct
实验设计数据文件,第一行分别是样本数,分组数,1。第二列是 # 两个分组名称。第三列是根据基因表达数据中样本的顺序,0 0 0代表对照组 1 1 1代表实验组。所有间隔以tab键分隔,不要有多余的间隔。修改后缀为.cls。
下载GSEA v4.3.3 for Windows本地软件,先点击load data,将两个输入文件拖入灰色框内,点击load these files,显示There were NO errors即表示文件没有问题。
然后点击Run GSEA,设置参数,选择刚刚上传的表达数据集,选择参考基因集数据库,例如我进行小鼠的GO bp分析,选择m5.go.bp.v2023.2.Mm.symbols.gmt。
Number of permutations:设置置换次数,通常为1000。置换次数越多,结果越稳定但计算时间越长。
Phenotype labels:输入实验设计文件,用于定义分组信息。哪个样品在前面,富集结果就和哪个组呈正相关
Collapse/Remap to gene symbols:是否将探针名转化为gene symbol。由于我输入的是gene symbol,所以是false
Permutation type(置换类型):这是决定置换时使用的参考类型。可以选择按表型(phenotype)置换或按基因集(gene set)置换。当有两个或多个不同的样本组(例如对照组和处理组)时,想要比较处理组和对照组之间基因表达的差异,选择表型置换。当有一个单独的样本组,但想评估基因集的显著性时,选择基因集置换。
Chip platform:Collapse/Remap to gene symbols为TRUE才选择,否则留空
Enrichment statistic:选择用哪种方法来计算富集得分,如weighted,使用加权方法。
Metric for ranking genes:选择哪种方法来对基因进行排序。Signal2Noise适用于有两个对比组(对照组和处理组),每个组必须至少有三个重复,基于两个组之间的平均值差异和标准差比值来排序基因。信号越大,噪声越小,得分越高。tTest:适用于两个对比组的情况,类似于Signal2Noise,使用t检验统计量对基因进行排序,反映两个组之间的差异显著性。
Gene list sorting mode:基因列表的排序模式。real,表示使用真实值排序。
Gene list ordering mode:descending,表示降序排列。
Max size: exclude larger sets:排除包含基因数量超过这个值的基因集。
Min size: exclude smaller sets:排除包含基因数量少于这个值的基因集。
Save results in this folder:选择保存分析结果的文件夹路径。
Collapsing mode for probe sets => 1 gene:在有多个探针对应同一基因时,选择使用哪一个探针的数据。Max_probe:使用探针集中表达值最高的探针来代表该基因。
Normalization mode(归一化模式):meandiv:基于均值和方差进行归一化
Seed for permutation(置换的种子):timestamp:使用时间戳作为随机种子
Randomization mode(随机化模式):选择是否在随机化过程中保持组间的平衡。no_balance:不进行平衡随机化。
Create GCT files(创建GCT文件):false:不创建GCT文件;Create SVG plot images(创建SVG绘图):false
Omit features with no symbol match:true:省略没有匹配到基因符号的特征(基因)。
Make detailed gene set report:true:生成详细报告。
Median for class metrics:选择是否使用中值作为计算类度量(如富集分数)的统计量
Number of markers:指定要显示的标记基因的数量。默认值为100。
Plot graphs for the top sets of each phenotype:指定要为每个表型绘制图表的top基因集数量,默认值为20。
Save random ranked lists:选择是否保存基于随机置换生成的基因排序列表。默认false
Make a zipped file with all reports:默认false不生成压缩文件。
Alternate delimiter:指定用于解析输入文件的备用分隔符。通常默认不需要设置。
点击下方的Run运行,点击最下方可以看到程序运行的过程和状态
数据集介绍
MH: hallmark gene sets
这些基因集总结并代表了特定生物过程或功能的基因表达模式。它们是通过计算方法从其他基因集集合中提取并映射到小鼠基因的版本。
M1: positional gene sets
这些基因集是按照小鼠染色体的位置分组的。每个基因集对应于染色体上的一个特定区域,用于研究与染色体特定区域相关的基因和功能。
M2: curated gene sets
这些基因集是从多个来源整理出来的,包括在线数据库、PubMed文献以及专家的知识。它们代表了经过深入研究的生物通路和功能。M2基因集分为两个子集:
CGP (chemical and genetic perturbations):基因表达特征与化学或基因干扰相关。
CP (canonical pathways):经典通路。
M3: regulatory target gene sets
这些基因集包含与转录因子或miRNA调控有关的目标基因。它们是根据基因在非编码区中的相似性来预测可能的调控关系。M3基因集有两个子集:
miRDB gene sets:基于miRDB数据库中高置信度的miRNA靶标预测。
GTRD gene sets:基于GTRD数据库的转录因子结合位点预测。
M5: ontology gene sets
这些基因集按照Gene Ontology(GO)分类。GO是一个生物学数据库,分为以下几个部分:
BP (Biological Process):生物过程。
CC (Cellular Component):细胞成分。
MF (Molecular Function):分子功能。
M8: cell type signature gene sets
这些基因集包括了通过单细胞测序研究识别的小鼠组织中特定细胞类型的标记基因,用于研究不同细胞类型的表达特征。
在得到的结果文件夹中首先找到.index.html文件
Enrichment in Phenotype: 1 (和 Phenotype: 0)
基因集上调情况:在Phenotype 1(即pehnotype labels中在前面的组,这里是实验组和Phenotype 0(对照组)中,上调的基因集数量分别为3633/5325和1692/5325。
FDR小于25%的显著基因集数量。在Phenotype 1中,有1029个基因集,而在Phenotype 0中,有104个基因集。
Nominal p-value:未调整的p值。显示在不同显著性水平下(如p < 1%和p < 5%)富集的基因集数量。在Phenotype 1中,分别有585和1061个基因集显著,而在Phenotype 0中,分别有92和147个基因集显著。
富集结果的概述,根据Plot graphs for the top sets of each phenotype设置的默认值20,每个图都是可以点进去的链接
这个通路的富集结果展示了GOCC_MITOTIC_SPINDLE_POLE基因集在Phenotype 1中上调的情况。Enrichment Score (ES): 0.5831028,这个值表示在排序列表中,基因集中基因的富集程度。ES值越高,表示基因集在该组中富集的程度越高。排序列表中的基因根据某种统计量(例如,t检验或信噪比)从最显著上调到最显著下调进行排序。富集得分ES反映了基因集中基因在整个排序列表中是否集中出现在排序列表的顶部(ES正值,表示上调)或底部(ES负值,表示下调)。富集得分的计算是通过一个步进算法,当遇到属于基因集的基因时,ES增加;当遇到不属于基因集的基因时,ES减少。因此,富集得分表示了基因集成员在整个排序列表中“集中”出现的程度。
Normalized Enrichment Score (NES): 2.18531,这是标准化后的富集分数,用于不同基因集和实验条件之间的比较。通常,NES大于1.0被认为是显著富集。
FWER(Family-Wise Error Rate,家族误差率)是指在多重比较(multiple comparisons)中,至少出现一个假阳性结果的概率。0.046表示这个基因集的富集在考虑了多重比较的情况下仍然具有统计显著性。
Enrichment Plot:
Running ES Score:绿色曲线表示富集得分的变化。曲线最高点表示这个基因集的最大富集得分。Hit Indices:黑色条带表示基因集的成员在整个基因排序列表中的位置。条带集中在哪一部分说明这些基因集成员是哪个组中是显著富集的。Ranking Metric Scores:灰色区域表示基因排序指标得分。每个基因在这个排序列表中都有一个Ranking Metric Score,它反映了该基因在两个组之间的表达差异的程度和方向。正值表示该基因在实验组中上调,负值反之。灰色区域的形状和分布揭示了基因在两组中的表达模式。区域较窄的部分表示这些基因的得分接近0,表明它们在两个表型中的表达差异不大。而较宽的部分表示得分远离0,表明这些基因在两个表型中的表达差异显著。如果灰色区域在排序列表的前端(靠左侧)出现正向尖峰,表示这些基因集的成员在排序列表中排名靠前,并且在实验组中上调。反之下调。
图表下方的表格列出了基因集中的主要基因,这些基因对富集结果的贡献较大。这些基因被称为“核心富集”(Core Enrichment)基因,因为它们在富集分析中起到了关键作用。
该图显示了GOCC_MITOTIC_SPINDLE_POLE基因集的随机富集得分(ES)分布,用于评估该基因集在各组之间的富集情况。如果实际的ES值(通常是一个正值)超过这个图中的正ES峰值区域,则表明这个基因集在实验组中的富集是显著的,并且不是由于随机原因引起的。
RANK AT MAX指的是基因集中产生最大富集得分(ES)的基因在整个排序列表中的位置。
基因标记数目:这里的基因标记数目是指在Phenotype 1和Phenotype 0中与表达差异相关的基因数量。Phenotype 1:有12466个基因标记,这些基因在Phenotype 1中表现出显著的表达变化。Phenotype 0:有13811个基因标记,这些基因在Phenotype 0中表现出显著的表达变化。Phenotype 1的45.1%:表示Phenotype 1中的这些基因标记占排序列表中所有基因标记的45.1%。
Rank ordered gene list(基因排序列表)
Dataset details数据集中包含26277个特征(基因
Gene set details基因集筛选:基因集的大小筛选条件(min=15, max=500),使得5325个基因集通过筛选被用于分析。
Global statistics and plots全局统计和绘图:提供了p-value和NES的分布图,以及全局ES直方图。
Other:显示了进行该分析所使用的具体参数。
Comments时间戳和随机种子:时间戳和使用的随机种子(1720352136232),确保结果的可重复性。
还有不太清楚的地方,可以点击Guide to interpret results进行查看