学习:StatQuest-RPKM,FPKM,TPM和CPM

前言

假设这是我们的RNA-seq数据


image.png

我们可以注意到,它们每个基因的长度和深度均不相同,这样我们计数的count就没有什么可比性
那么我们简单介绍下什么是测序深度:比方说rep1测了100条reads,rep2测了150条reads,rep3测了200条reads
那么测得越多,某基因捕捉到的reads数越多,但如果测序深度不同,两个rep就没有可比性
接下来我们再讨论下基因长度所带来的影响,根据比对的原理,如果一个基因长(一般reads长度是150bp)那么它捕捉到的reads就多(reads比对上的可能性就高),反之则少,所以长的基因捕捉到的reads多,不见得它的表达量就一定高(这纯属比对原理导致的),所以我们也会对长度进行校准

RPKM

1. 对测序深度进行校准

image.png

我们可以看到rep1的深度(total reads)是35;rep2的深度(total reads)是45;rep3的深度(total reads)是106
这里为了好计算,把各个重复的测序深度都除以10
然后再除以对应rep的total reads


image.png

2. 对基因长度进行校准

我们可以看到各个基因的长度也不是一样的,所以要校准


image.png

然后每个rep除以对应基因的长度(单位kb)


image.png

然后这就是最终结果

RPKM用于单端测序,由于每个mRNA仅有一个read比对上去,所以计算每个基因read的数目就是计算每个基因表达的mRNA数目

值得注意的是,这里所述的基因长度指的是总的外显子长度,并且去除过多的重叠的外显子的部分

FPKM

image.png

RPKM和FPKM概念比较相近,FPKM用于双端测序,RPKM用于单端测序,FPKM由于每个mRNA相应会有两个reads比对上去,所以较RPKM来说,FPKM不会根据reads来计算,而是根据两个reads比对上的那个片段来计算。fragment即为这个意思

TPM

根据RPKM,我们类比TPM

1. 对基因长度做校准

image.png

image.png

2. 对测序深度做校准

image.png

比较RPKM和TPM

image.png

我们可以看到,采用RPKM标准化后,每个rep标准化后的总reads数是不同的,但是TPM是相同的,所以采用TPM可以更好的比较各样本间某基因的表达情况

CPM

我们这次主要讲一种新的标准化方式CPM


image.png

对应样本对应基因的count数除以该样本总的count数再除以1000000


image.png
image.png

这仅仅是基于基因count的标准化

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容