《GSEA富集图(Enrichment Plot)解读指南》

enrichment plot

图片来自https://www.biostars.org/p/367191/

第一部分富集曲线:

  1. 富集分数(ES)的升降原理
    纵坐标的富集分数(Enrichment Score, ES)反映基因集中基因在排序列表中的分布趋势:

ES > 0:基因集的基因显著集中在实验组上调部分(排序列表左侧)。

ES < 0:基因集的基因显著集中在实验组下调部分(排序列表右侧)。

ES为何有升有降?
ES的波动本质是基因集中基因的分布密度变化:

当排序列表中出现连续密集的基因集成员时,ES会快速上升(如左图峰值)。

当基因集成员分布稀疏或中断时,ES逐渐回落。

关键结论:最终关注的是ES是否显著偏离0(通过NES和FDR判断)。

plot中间部分

  1. 中间黑色竖线条的意义
    图中的黑色竖线标记了基因集中所有基因在排序列表中的具体位置。

如果黑线密集出现在左侧(高log2FC区域),说明这些基因在实验组中普遍上调。

若集中在右侧(低log2FC区域),则提示基因集在实验组中被抑制(下调)。

  1. 排序逻辑与实验组/对照组方向
    排序依据:基因按log2FC从高到低排列(左→右)。

左侧:log2FC最高的基因(实验组最显著上调)。

右侧:log2FC最低的基因(实验组最显著下调,即对照组上调)。

实验组默认在左:因为log2FC = log2(实验组/对照组),正值对应实验组高表达。

plot底部Metric图

  1. 底部Metric图的解读
    底部曲线显示排序基因的Signal2Noise(S2N)或log2FC值:

S2N公式:

S2N = (μ实验组 − μ对照组)/ (σ 实验组+ σ对照组)
μ:基因在组内的平均表达值。
σ:基因在组内的标准差(反映表达波动)。

S2N > 0:实验组表达更高(上调基因)。

S2N < 0:对照组表达更高(实验组下调基因)。

log2FC图:直接展示对数倍变化值,正值=上调,负值=下调。

总结

ES方向决定通路激活/抑制状态,波动反映基因集分布密度。

黑色竖线是基因集成员的“定位标记”。

排序列表的左右对应实验组/对照组的表达趋势。

底部Metric图辅助验证基因差异的可靠性(推荐结合S2N和log2FC)。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容