前言
假设这是我们的RNA-seq数据
我们可以注意到,它们每个基因的长度和深度均不相同,这样我们计数的count就没有什么可比性
那么我们简单介绍下什么是测序深度:比方说rep1测了100条reads,rep2测了150条reads,rep3测了200条reads
那么测得越多,某基因捕捉到的reads数越多,但如果测序深度不同,两个rep就没有可比性
接下来我们再讨论下基因长度所带来的影响,根据比对的原理,如果一个基因长(一般reads长度是150bp)那么它捕捉到的reads就多(reads比对上的可能性就高),反之则少,所以长的基因捕捉到的reads多,不见得它的表达量就一定高(这纯属比对原理导致的),所以我们也会对长度进行校准
RPKM
1. 对测序深度进行校准
我们可以看到rep1的深度(total reads)是35;rep2的深度(total reads)是45;rep3的深度(total reads)是106
这里为了好计算,把各个重复的测序深度都除以10
然后再除以对应rep的total reads
2. 对基因长度进行校准
我们可以看到各个基因的长度也不是一样的,所以要校准
然后每个rep除以对应基因的长度(单位kb)
然后这就是最终结果
RPKM用于单端测序,由于每个mRNA仅有一个read比对上去,所以计算每个基因read的数目就是计算每个基因表达的mRNA数目
值得注意的是,这里所述的基因长度指的是总的外显子长度,并且去除过多的重叠的外显子的部分
FPKM
RPKM和FPKM概念比较相近,FPKM用于双端测序,RPKM用于单端测序,FPKM由于每个mRNA相应会有两个reads比对上去,所以较RPKM来说,FPKM不会根据reads来计算,而是根据两个reads比对上的那个片段来计算。fragment即为这个意思
TPM
根据RPKM,我们类比TPM
1. 对基因长度做校准
2. 对测序深度做校准
比较RPKM和TPM
我们可以看到,采用RPKM标准化后,每个rep标准化后的总reads数是不同的,但是TPM是相同的,所以采用TPM可以更好的比较各样本间某基因的表达情况
CPM
我们这次主要讲一种新的标准化方式CPM
对应样本对应基因的count数除以该样本总的count数再除以1000000
这仅仅是基于基因count的标准化