学习GSEA富集分析图
1、基因集富集分析(GSEA,Gene Set Enrichment Analysis)的结果通常由以下三个部分组成:
富集分数(Enrichment Score,ES):这是分析的核心结果,反映了目标基因集在排序的基因列表中的富集程度。ES的值随着基因排序的变化而变化,通常在特定的基因集区域达到最高或最低,显示了基因集与排序基因之间的相关性。
累积富集分数(Running Enrichment Score):这是ES计算过程中基因集被逐步增加的富集分数。这个分数随着基因排序逐渐变化,显示了富集趋势。富集分数通常会随着目标基因出现的序列逐渐增大或减小。
正负峰值(Leading Edge):这是定义目标基因集和富集分数的关键部分。它包含了GSEA分析中最能代表富集的基因,它们对富集分数的贡献最大。通过分析这些基因,可以更好地理解特定基因集的富集模式。
2、通常显示:
基因排名图:基因按照某一指标(如log2FoldChange)排序,基因集的富集分数沿着基因排序线变化。
富集分数曲线:这条曲线展示了基因集在不同基因排序位置的富集情况,通常以绿色曲线的形式展示。
目标基因标记:特定基因集的成员被标记为目标基因,这些基因在富集分数曲线附近会显示峰值。
今天绘制一个简单的。
一、代码
(1)数据
(2)代码
数据处理
绘图代码
(3)结果
富集曲线图(p1):
绿色曲线:表示富集分数(Enrichment Score, ES)随着基因排序位置的变化。富集分数反映了目标基因集(比如某个特定通路中的基因)在整个排序基因集合中的富集程度。
水平虚线:y=0的虚线,用来指示富集分数的零点,通常这个点代表了富集分析中的“转折点”。
黑色垂直线:这些线表示目标通路基因的位置,即哪些基因属于分析的目标通路。这些基因在排序中的位置与富集分数的变化相关。
紫色点:紫色点标记了富集分数为零的位置,这也是“要点交叉”,即富集分析中的关键转折点。
基因排序指标图(p2):
红色和蓝色条形图:这些条形表示基因排序中的排名情况。红色代表上调基因,蓝色代表下调基因。这些条形表示不同基因在排序中的位置,以及它们的上调或下调趋势。
y轴:表示每个基因的排名指标(rank score),通常是根据基因的表达变化(比如log2FC值)来排序的。
注意:
富集曲线(p1):
如果绿色曲线在中间区域有很大的波动,且波动越接近零点(水平虚线),则说明该目标基因集的富集程度较高。
通常,在富集分数较高的位置,黑色垂直线(通路基因位置)越密集,这意味着该通路的基因在排序中表现出强烈的富集趋势。
如果富集分数在某一位置大于零,并且该位置正好经过大量的通路基因,那么该基因集可能与这个位置(或区域)显著相关。
基因排序指标(p2):
红色条表示上调基因,这些基因在整个基因集合中可能具有较高的表达水平,蓝色条则表示下调基因。
基因排序的方向与富集分析中的曲线(绿色曲线)有关系,通常上调基因会出现在富集分数较高的位置,表示目标通路的基因在这一位置上有显著富集。
生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!
喜欢的宝子们点个赞吧~码字不易,且行且珍惜~