RNA-seq项目设计:生物学重复和单个样本测序量对结果的影响

2014/10/30

毫无疑问,提高生物学重复或提高单个样本测序量,都可以改善这些问题。但在研究经费有限的情况下,“提高生物学重复数而降低单个样本的测序量”或“提高单个样本测序量而降低生物学重复”,哪个更有效?

技术专题文章下载链接:http://www.genedenovo.com/document.html?id=60

在RNA-seq项目设计过程中,老师经常会问两个问题:

1)低丰度的基因是否能够被检测到(有或无);
2)基因定量的结果是否准确(高或低);

 毫无疑问,提高生物学重复或提高单个样本测序量,都可以改善这些问题。但在研究经费有限的情况下,“提高生物学重复数而降低单个样本的测序量”或“提高单个样本测序量而降低生物学重复”,哪个更有效?

我们经常会建议老师:“3个生物学重复样本(2G/样本)的定量准确性 大于 单个样本6G数据量。即相同的总数据量拆分到更多的生物学重复中,实际上定量可靠性是提高了。”这个结论的出处是哪里? 下面,我们通过一篇参考文献解答这个问题。
image

背景:这篇2012年 BMC genomiss的方法学文章,主要讨论了生物学或技术重复、单样本测序量、分析算法这3类因素对RNA表达差异分析的影响;
结论:

1)软件DESeq的效果优于edgeR或NBPSeq。

2)差异分析对数据量并不敏感,甚至当单个样本测序量降低为原来的15%的时候,也不会大幅度降低差异基因检出率。
3)增加生物学重复对提高表达差异分析结果可靠性的效果要优于单样本测序量,
备注:第二、三部分的内容,我们将在下文重点解读。

判定差异分析结果可靠性的指标

假阳性与真阳性
直观一些说,如果某个基因在RNA-seq结果显示差异表达,但Qpcr结果表明这个基因表达差异不显著,可以认为这个基因RNA-seq结果为假阳性;反之,这个结果就是真阳性。
而老师往往会关心某些低表达基因的表达差异变化能否被正确检测,那么这就要求我们提高实验的真阳性率。

假阳性率(FPR):真实非差异表达中的基因中,被错误判定为差异表达的比例,FDR越低越好;
真阳性率(TPR):真实差异表达的基因中,能够正确判定为差异表达的比例,TPR越高越好;真阳性率这个概念,如果换用为“差异基因的检出率”更容易理解,下文我们会并用这两个概念。

下文,我们将重点摘抄文章中三个方面的问题,并做总结:

1. 生物学重复对差异表达分析的影响

image

如表1所示,在单样本测序量保持不变的情况下,随着生物学重复数(n)的提高,差异分析的假阳性率(FPR)基本稳定,但真阳性率(TPR)在不断提高。也就是说提高生物学重复数,实验对差异表达基因的检测更加敏感,那些差异倍数较小或表达量较低的差异表达基因(此类基因的差异检测难度较大)能够更容易被检测到。

2. 单样本测序量对差异表达分析的影响

image
image

如表2、表3所示,在一定的生物学重复数(n)的情况下,随着单样本测序量(Depth)的提高(25% → 100%),假阳性率(FDR)和真阳性率(TPR)都只有有限的提高。例如在n=3的情况下,单个样本的测序量从25%提高到100%,FDR仅仅从0.02%提高到0.04%,TPR仅仅从6.24%提高到8.95%。

在表3中,如果Depth等于25%不变,当n从2提高到12,TPR的提高则是非常明显的。因此测序深度对结果改善效果并不如增加生物学重复。在下文,我们将详细比较。

2.1总数据量不变,生物学重复数与单样本测序量最佳组合

image

不同单样本测序量与生物学重复数组合,对应的TPR变化

如果保持总测序量不变(即如果生物学重复数为n,则单个样本的测序量降低为1/n,总数据量为n×1/n=1 ,保持不变)。
如图1(a),灰色实线代表不同生物学重复数(n)和单样本数据量(1/n)组合的情况下,真阳性率(TPR)的变化。结果表明,随着n的提高,TPR率不断提高。例如,如果n=2,TPR约为3%,如果n=6,TPR则提高到22%

2.2总数据量不变,生物学重复数与测序量最佳组合

image

如果n=3固定不变,单个样本数据量降低,TPR的变化

2.3总数据量不变,生物学重复数与测序量最佳组合

image

不同测序量与生物学重复数组合,对应的FPR变化

但是不同的生物学重复数和单样本测序量的组合,对假阳性率(FPR)的影响却较小。如图1(b),灰色实线代表不同生物学重复数(n)和单样本数据量(1/n)组合的情况下,真阳性率(FPR)的变化。虽然n从2变化到96,FPR基本没有太大变化。

从图中我们很容易发现,基于负二项分布的差异分析检验(P value),FPR对生物学重复数和单个样本数据量均不敏感,始终保持低于0.1%水平。或者说,这个算法对FPR的控制还是非常理想的。

讨论

1. RNA-seq老师关心的问题 :

1)低丰度的基因是否能够被检测到(有或无);
2)基因定量的结果是否准确(高或低);

大部分老师对第一个问题的关心程度要大于第二个,第二个问题常常被忽略。

但实际上,随着测序单价的下降,目前市场上RNA-seq类项目的单样本测序量正在不断提高。以2G,PE100测序的表达谱项目为例,其对应的测序量为20M条reads。如果一条长度为1kbp的低表达基因的表达量为RPKM=0.5,其理论上可以检测到的reads数为20×0.5=10。所以低丰度基因的检测,对RNA-seq这个技术来说并非最大问题。

image

如上图,大部分RNA-seq类项目,老师都会看到测序的饱和曲线达到平台期。也就是说再增加测序量,新检测出的基因数并不会有明显增加。

第二个问题“转录本表达量的高低变化”比“转录本的有无”更具有普遍的生物学意义。虽然个别基因的表达量变化程度,可以使用Qpcr来验证。但我们往往也使用所有差异基因来统计某些规律。例如使用差异基因的pathway富集分析来寻找与性状相关的pathway。如果在全局水平的差异基因集并不可靠,那么pathway富集分析得出的结论的可靠性自然也受到影响。而全局水平的差异基因数量巨大,是难以使用Qpcr验证的。
因此,定量以及差异分析的准确性是在RNA-seq中更值得老师关心的问题。在讨论的第二部分,我们重点展开叙述。

2. 重复数、单样本测序量的取舍

我们将前文提到的三个问题在进行总结:

1)生物学重复对差异表达的影响;
目前,主流期刊对生物学重复慢慢会有一定的要求。从本文,我们可以看到,设定生物学重复对差异基因的检出率(真阳性率,TPR)的提高具有明显效果。所以,设定生物学重复对提高结果的可靠性,是非常有意义的。

2)单个样本的测序量
老师对测序量比较关心,主要还是由于担心低丰度基因无法检测的问题。讨论的第一部分,我们也解释过,目前RNA-seq 的数据量(一般不低于2G,对于lncRNA测序,数据量一般更大)已经足以保证大部分低丰度基因的检测。而且,从本文我们可以看到,在其他条件不变的情况下,单样本数据量从100%降低到15%,差异基因的检出率(真阳性率,TPR) 降低较为平缓。所以,单样本数据量对RNA-seq定量和差异分析的影响实际上是十分有限的。

3)总数据量不变,生物学重复数与单样本测序量最佳组合
由于大部分老师科研经费有限,无法无限制地增加样本数或数据量。所以在生物学重复数和单个样本测序量上必须找到平衡点。从本文我们可以看出,在总数据量不变的情况下,将总数据量分配到更多的生物学重复样本中,差异分析结果的可靠性在不断提升。这也与前两点得出的结论一致——对于RNA-seq,生物学重复数的价值要大于单个样本测序量。
但增加生物学重复的样本数,意味着要增加建库费用。因此,即使总数据不变,设置过多的生物学重复也是不合理的。一般而言,设定3个生物学重复,依然是最高性价比的选择。

3. 其他
增加单样本数据量对定量的改良是有限的。但对于低丰度 转录本de novo拼接(无参考基因组)或低丰度新转录本检测(有参考基因组),更高的数据量的确可以潜在改善拼接效果。
那么对于此类情况,我们可以采取以下策略:1)在拼接的步骤,我们可以将所有数据合并(例如每个生物学重复2G数据量,3个重复,全部合并),足够大的数据量来保证拼接效果;2)完成拼接后,在定量这个步骤,每个生物学重复样本独立定量。从而,可以在控制整个项目测序量的情况下,兼顾转录本拼接和定量这两个方面的问题。
这个策略也可以解释,对于lncRNA测序,如果不设置重复,我们建议老师单样本测序量为810G。如果设置了重复,而老师经费有限,那么可以将单个样本的数据量降低(例如56G),其效果依然要优于不设置重复的实验设计。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容