Normalization
差异基因分析工作流程的第一步是计数归一化,这对于准确比较样品之间的基因表达是必需的。
RNA-Seq(RNA测序的缩写)是一种实验类型,可让我们测量基因表达。测序步骤产生大量(数千万个)cDNA 片段序列,称为reads,每个read代表样品中某些RNA分子的一部分.
然后,我们将每个read分配(“map”)到一个isoforms个,并计算每个isoforms(isoform:可以认为同一个基因的不同版本的蛋白)有多少个read。
在所有其他条件都相同的情况下,isoforms越丰富,则来自该异构体的片段越可能被测序。因此,我们可以将read计数代表isoforms的丰度。
Normalization期间经常考虑的主要因素有:
1.测序深度 需要测序深度来比较样品之间的基因表达。在下面的示例中,每个基因在样品A中的表达似乎都比样品B增加了一倍,但这是样品A的测序深度增加了一倍的结果。
注意:在上图中,每个粉红色和绿色矩形代表与基因对齐的读段。用虚线连接的读段连接跨越内含子的读段。
2.基因长度 比较相同样品中不同基因之间的表达,需要考虑基因长度。在该示例中,基因X和基因Y具有相似的表达水平,但是映射到基因X的读取次数将比映射到基因Y的读取次数多得多,因为基因X更长。
3.RNA组成 样品之间一些高度差异表达的基因,样品之间表达的基因数量不同或存在污染会影响某些类型的标准化方法。建议对RNA组成进行核算,以准确比较样品之间的表达,在进行差异表达分析时尤其重要
在此示例中,如果我们将每个样本除以计数总数进行归一化,则DE基因将大大扭曲计数,DE基因占据了样本A的大部分计数,但没有样本B的计数。样品A的大多数其他基因将被总数较大的数除,并且似乎比样品B中的那些相同基因的表达少。
虽然归一化对于差异表达分析至关重要,但对于探索性数据分析,数据可视化以及每当您探索或比较样本之间或样本内部的计数时,标准化也是必要的。
常用Normalization方法
Normalization method | 描述 | 考虑因素 | 推荐使用 |
---|---|---|---|
CPM (counts per million) | counts scaled by total number of reads | 测序深度 | 同一样本组重复样本之间的基因计数比较;不适用于样品比较或DE分析 |
TPM (transcripts per kilobase million) | counts per length of transcript (kb) per million reads mapped | 测序深度和基因长度 | 样本内或同一样本组样本之间的基因计数比较;不用于DE分析 |
RPKM/FPKM (reads/fragments per kilobase of exon per million reads/fragments mapped) | similar to TPM | 测序深度和基因长度 | 样本中基因之间的基因计数比较;不适用于样品比较或DE分析之间 |
DESeq2’s median of ratios | counts divided by sample-specific size factors determined by median ratio of gene counts relative to geometric mean per gene | 测序深度和RNA组成 | 样品之间的基因计数比较和DE分析 ; 不适用于样本比较 |
EdgeR’s trimmed mean of M values (TMM) | uses a weighted trimmed mean of the log expression ratios between samples | 测序深度,RNA组成和基因长度 | 样品之间和样品内部的基因计数比较,用于DE分析 |
RPKM/FPKM (not recommended)
- 虽然TPM和RPKM / FPKM归一化方法都考虑了测序深度和基因长度,但不建议使用RPKM / FPKM。原因是通过RPKM / FPKM方法输出的归一化计数值在样本之间不具有可比性。
- 使用RPKM / FPKM归一化,每个样本的RPKM / FPKM归一化计数总数将不同。因此,您不能在样本之间平均比较每个基因的标准化计数。
RPKM归一化计数表
基因 | SampleA | SampleB |
---|---|---|
XCR1 | 5.5 | 5.5 |
WASHC1 | 73.4 | 21.8 |
… | … | … |
RPKM归一化总数 | 1,000,000 | 1,500,000 |
例如,在上表中,即使RPKM计数值相同,SampleA与XCR1(5.5 / 1,000,000)相关的计数比例也比sampleB(5.5 / 1,500,000)大。因此,我们不能直接比较sampleA和sampleB之间XCR1(或任何其他基因)的计数,因为标准化计数的总数在样本之间是不同的。
后面将继续学习DESeq2和EdgeR的Normalization方法。以及相互转换的方法