bioinfo100 —— 第35题 RNA-Seq 数据的定量之RPKM和FPKM

https://zhuanlan.zhihu.com/p/50811365

Hello大家好!好久不见了!

之前手头上一直有很多事情,因此咱们的生物信息学100个基础问题(BBQ100)也耽误了一阵子,给大家鞠躬道歉,以后希望能够保持一定的更新速度,早日填完我们这个立下的Flag!

根据之前的规划,我们将用接下来的几期问题来探索一下RNA-Seq定量的问题,也就是要探索一下我们常说的RPKM,FPKM,TPM,raw count 和RSEM,前面4个指标都比较直观,方便理解,最后一个RSEM需要涉及到一些机器学习的知识,我们尽量给大家把比较复杂的问题简单化,方便大家的入门。

1. RNA-Seq定量过程中的比较问题

我们在BBQ-34的时候讨论过RNA-Seq的方法论相关的问题,就是RNA-Seq的基本假设是什么?简单来说就是 细胞/组织/个体 的两种不同状态进行比较,比较的目的就是寻找差异表达gene,然后从差异表达gene来推断造成生理状态不同的原因。

而我们的RNA-Seq一般情况下是针对mRNA以及带polyA的lncRNA进行建库测序分析的。那么理论上把测序的FASTQ文件mapping到参考基因组上,再结合参考基因组的GTF/GFF文件就可以找到全基因组的每一个gene上mapping到了多少个reads count。

拿到了reads count以后,我们就会尝试着想要比较gene之间的表达量的关系,但是这时候往往会面临两个问题,举个例子:

  • 问题1: 比如我有gene3,有1000条测序reads,gene4有2000条测序reads,那么我能否说gene4就一定比gene3的表达量高?(图1 gene3 与 gene4)
  • 问题2: 比如我有gene1,有1000条测序reads,我的另一个处理条件下gene2有2000条测序reads,我能否就说geneA在处理条件下表达量降低了?(图1 gene1与gene2)

在面临这些比较问题的时候,我们就需要对mapping到gene的reads count进行矫正,至少根据问题1我们知道应该在矫正的时候考虑过gene长度的问题;根据问题2,我们大概应该能够猜想到,矫正的时候应该需要考虑整体测序量的问题。到此,RPKM和FPKM这两个指标就应运而生了。

image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">图1 ( Manuel Garber et al., Nature Methods, 2011 )</figcaption>

2. 什么是RPKM与FPKM?

RPKM = Reads Per Kilobase per Million mapped reads

假设回贴到geneA 的 reads count为 CountA,geneA的exon总长度为Len(A) Kbp,总的测序量为D兆reads,那么:

geneA RPKM = CountA / Len(A) / D * 10^9

那么什么是FPKM呢?先来看一下FPKM的定义:

FPKM = Fragments Per Kilobase per Million mapped reads

大家可以比较清楚看出来,RPKM中的R指的是Reads,FPKM中的F是指Fragments,Reads都比较好理解,就是我们的测序短的片段,那么fragment是什么呢?这是以为我们现在测序一般来说都是测双端测序(paired-end sequencing),那么在mapping回参考基因组的时候就会有两条reads,分别是read1和read2,分别来源于建库打断的5' 端和3'端。那么这2条reads就可以在参考基因组上确定1个小的片段,这个片段就叫fragment(图2所示)。

image

<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">图2 (Frances S. Turner)</figcaption>

所以,如果是现在最常用的双端测序,1个gene的FPKM应该等于RPKM / 2。

3. RPKM / FPKM有什么优缺点?

因为现在使用Illumina测序平台,绝大多数的测序都是使用双端测序,那么基本上我们一般对gene进行定量都是使用FPKM来进行。FPKM的优点大家都很了解了,能够矫正掉gene长度以及测序深度对gene表达定量的影响,那么FPKM的缺点大家是否熟悉呢?

一个比较容易被人提及的问题是对于不同批次测序的结果,所有gene的FPKM的总和不是一个固定的值。比如WT 测的所有gene的FPKM总和可能是10000,treat组测到的FPKM总和可能是15000,这样对于WT和treat组之间的差异表达gene的寻找就有可能出现问题,这个时候就需要用到我们常用的另一种矫正方法TPM。

4. 提问环节

好了,相信通过今天的介绍,大家能够对FPKM与RPKM有一个比较清楚的认识了。我做一个简单的小提问:请用最简单,最直白的语言描述“geneA的FPKM是10”的测序意义。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342