在基因差异表达分析中,我们的目标是识别在不同条件下表现出显著表达变化的基因。这些基因可能是响应特定处理、疾病状态或环境变化的重要标志,其表达差异对于理解生物学过程至关重要。
1、筛选差异表达基因时,通常使用两个关键指标:log2FC和padj。
1)log2FC(log2 倍数变化)衡量基因表达变化的幅度和方向。例如,log2FC > 0 表示表达上调,log2FC < 0 表示表达下调,绝对值越大变化越显著。
2)padj(校正后的 p 值)是显著性指标,经过多重检验校正,能够有效减少假阳性结果,提高筛选可靠性。
2、p 值筛选差异基因的局限性
p 值用于判断基因表达差异的显著性。若 p 值较小(如 < 0.05),表示该差异可能非随机。但在 RNA-seq 分析中,由于同时检验的基因数目庞大(常达上万),假阳性结果难以避免。例如,在 10,000 个基因中,即使显著性水平设为 0.05,也可能有 500 个假阳性。因此,单靠 p 值不足以确保结果的可靠性。
3、padj 的作用
为了控制假阳性率,引入padj值(校正 p 值),基于 Benjamini-Hochberg 方法控制假发现率(FDR)。设定 padj 阈值(如 < 0.05)可以确保假阳性比例不超过 5%。在实际分析中,padj 的使用显著提高了筛选结果的可靠性。(在DESeq2中,padj 值是自动计算的。)
4、计算 padj 的主要步骤:
1)对所有基因的 p 值排序,分配排名。
2)按排名计算校正因子:校正因子 = i / m × α(其中 i 为排名,m 为基因总数,α 为显著性水平)。
3)用校正因子计算 padj 值,并调整为单调递增。
4)保证单调递增:为了保证 padj 值的顺序合理性,Benjamini-Hochberg 方法还会调整 padj 值,使其在数值上从小到大递增。
5、log2FC 的意义
1)log2FC表示处理组相对于对照组的表达变化:
① log2FC > 0:基因表达上调。
② log2FC < 0:基因表达下调。
③ 绝对值越大,变化幅度越显著。
例如,处理组表达量为对照组的 4 倍,则 log2FC = 2;若表达量为对照组的一半,则 log2FC = -1。
6、综合筛选标准
1)差异表达基因通常基于以下标准筛选:
① padj < 0.05:确保显著性。
② |log2FC| > 1:保证变化幅度显著。
生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!
喜欢的宝子们点个赞吧~码字不易,且行且珍惜~