enrichment plot
第一部分富集曲线:
- 富集分数(ES)的升降原理
纵坐标的富集分数(Enrichment Score, ES)反映基因集中基因在排序列表中的分布趋势:
ES > 0:基因集的基因显著集中在实验组上调部分(排序列表左侧)。
ES < 0:基因集的基因显著集中在实验组下调部分(排序列表右侧)。
ES为何有升有降?
ES的波动本质是基因集中基因的分布密度变化:
当排序列表中出现连续密集的基因集成员时,ES会快速上升(如左图峰值)。
当基因集成员分布稀疏或中断时,ES逐渐回落。
关键结论:最终关注的是ES是否显著偏离0(通过NES和FDR判断)。
plot中间部分
- 中间黑色竖线条的意义
图中的黑色竖线标记了基因集中所有基因在排序列表中的具体位置。
如果黑线密集出现在左侧(高log2FC区域),说明这些基因在实验组中普遍上调。
若集中在右侧(低log2FC区域),则提示基因集在实验组中被抑制(下调)。
- 排序逻辑与实验组/对照组方向
排序依据:基因按log2FC从高到低排列(左→右)。
左侧:log2FC最高的基因(实验组最显著上调)。
右侧:log2FC最低的基因(实验组最显著下调,即对照组上调)。
实验组默认在左:因为log2FC = log2(实验组/对照组),正值对应实验组高表达。
plot底部Metric图
- 底部Metric图的解读
底部曲线显示排序基因的Signal2Noise(S2N)或log2FC值:
S2N公式:
S2N = (μ实验组 − μ对照组)/ (σ 实验组+ σ对照组)
μ:基因在组内的平均表达值。
σ:基因在组内的标准差(反映表达波动)。
S2N > 0:实验组表达更高(上调基因)。
S2N < 0:对照组表达更高(实验组下调基因)。
log2FC图:直接展示对数倍变化值,正值=上调,负值=下调。
总结
ES方向决定通路激活/抑制状态,波动反映基因集分布密度。
黑色竖线是基因集成员的“定位标记”。
排序列表的左右对应实验组/对照组的表达趋势。
底部Metric图辅助验证基因差异的可靠性(推荐结合S2N和log2FC)。