登录注册写文章

学习：StatQuest-RPKM,FPKM,TPM和CPM

学习：StatQuest-RPKM,FPKM,TPM和CPM

前言

假设这是我们的RNA-seq数据

image.png

我们可以注意到，它们每个基因的长度和深度均不相同，这样我们计数的count就没有什么可比性
那么我们简单介绍下什么是测序深度：比方说rep1测了100条reads，rep2测了150条reads，rep3测了200条reads
那么测得越多，某基因捕捉到的reads数越多，但如果测序深度不同，两个rep就没有可比性
接下来我们再讨论下基因长度所带来的影响，根据比对的原理，如果一个基因长（一般reads长度是150bp）那么它捕捉到的reads就多（reads比对上的可能性就高），反之则少，所以长的基因捕捉到的reads多，不见得它的表达量就一定高（这纯属比对原理导致的），所以我们也会对长度进行校准

RPKM

1. 对测序深度进行校准

image.png

我们可以看到rep1的深度（total reads）是35；rep2的深度（total reads）是45；rep3的深度（total reads）是106
这里为了好计算，把各个重复的测序深度都除以10
然后再除以对应rep的total reads

image.png

2. 对基因长度进行校准

我们可以看到各个基因的长度也不是一样的，所以要校准

image.png

然后每个rep除以对应基因的长度（单位kb）

image.png

然后这就是最终结果

RPKM用于单端测序，由于每个mRNA仅有一个read比对上去，所以计算每个基因read的数目就是计算每个基因表达的mRNA数目

值得注意的是，这里所述的基因长度指的是总的外显子长度，并且去除过多的重叠的外显子的部分

FPKM

image.png

RPKM和FPKM概念比较相近，FPKM用于双端测序，RPKM用于单端测序，FPKM由于每个mRNA相应会有两个reads比对上去，所以较RPKM来说，FPKM不会根据reads来计算，而是根据两个reads比对上的那个片段来计算。fragment即为这个意思

TPM

根据RPKM，我们类比TPM

1. 对基因长度做校准

image.png

image.png

2. 对测序深度做校准

image.png

比较RPKM和TPM

image.png

我们可以看到，采用RPKM标准化后，每个rep标准化后的总reads数是不同的，但是TPM是相同的，所以采用TPM可以更好的比较各样本间某基因的表达情况

CPM

我们这次主要讲一种新的标准化方式CPM

image.png

对应样本对应基因的count数除以该样本总的count数再除以1000000

image.png

image.png

这仅仅是基于基因count的标准化

最后编辑于：2020.09.28 09:46:50

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

StatQuest学习笔记24——RPKM FPKM TPM
前言——主要内容这篇笔记是StatQuest系列笔记的第63节，这篇笔记跳过59节，60节，61节主要是因为第6...
backup备份阅读 13,420评论 0赞 18
RPKM、FPKM、TPM详解
简写 RPKM: Reads Per Kilobase of exon model per Million map...
NoviceWitch阅读 85,550评论 8赞 124

为什么说FPKM和RPKM都错了？
这本是三年多之前我发在公众号上的一篇旧文，一些偶然的机会，发现不少朋友也在讨论这个问题，因此我重新做了梳理并发出来...
黄树嘉阅读 14,242评论 6赞 54
转录组学习六（reads计数与标准化）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...
Dawn_WangTP阅读 34,410评论 4赞 42
昨夜我梦见……
一个黑人的士司机送我回走马街我的故乡，一个偏远贫穷的小镇司机脸庞矍铄，不再年轻梦幻中我以为他是中年的我对于...
丽铭当下阅读 1,196评论 0赞 2

10赞11赞

赞赏

手机看全文