RNA-Seq中的技术重复问题
在RNA-Seq中我们是否需要技术重复?如果我们有生物学重复就不需要技术重复。为什么?
RNA-seq变异的两个来源
-
生物的变异
- 没有两只老鼠会有完全相同数量的RNA转录本,即使它们的基因完全相同
- 从人类到果蝇,任何动物都可以这么说。
-
技术的变异
- 我们每次做实验,都会涉及到很多小因素,其中有些因素是完全随机的,所以即使是同一种生物,也不可能得到两次完全相同的结果。
生物学重复
只有生物的变异的例子
现在,想象一下我们可以在没有任何技术变异的情况下进行RNA-seq。现在我们对一些老鼠的gene X进行测序,得到X的reads。下图中,由于没有技术重复,所以样本1和样本2的gene X reads差异来自于生物的变异。
我们测序了地球上所有老鼠的gene X,并得到reads,并用希腊字母μ表示所有gene Xreads的平均值。然后找出每只老鼠的reads和所有老鼠的平均reads之间的差异。
假设我们只计算了5个样本,此时我们用数学公式来表示前五只老鼠的reads,然后计算出这5只老鼠reads的平均值。
然后我们对式子进行化简,左边是μ,右边是常数,会随着样本量的增加趋向于0。
生物变异+技术变异
为了让事情更清楚,生物学变异是橙色的,技术变异是绿色的,绿色箭头箭头向下表示技术变异导致reads减少,绿色箭头箭头向上表示技术变异导致reads增加,此时我们用数学公式来表示前五只老鼠的reads,然后计算出这5只老鼠reads的平均值。
和之前一样,有了更多的样本,两个变化项都将趋近于零,因为分子上的值会相互抵消。
技术重复
首先,让我们想象一下,我们有一只老鼠,在它身上做了5次测序,生物学变异是橙色的,技术变异是绿色的,此时我们用数学公式来表示前五个样本的reads,然后计算出这5个样本reads的平均值。
在这个案例中,第1只小鼠的基因X的reads数的均值由3部分构成。第1部分是实际均值μ,第2部分是生物学变异,它是一个固定的值。第3个部分是技术变异,但随者技术重复的增多会趋于0。
生物重复vs技术重复
生物学重复和技术重复
现在,样本1有两个技术重复,样本2有3个技术重复。计算reads平均值。
- 如果不添加额外的生物重复,这中间的常数项将不会趋向于零。
- 你添加生物重复,它将趋向于0,但它将比以前需要更多的重复(在这种情况下需要3倍的复制),因为这些项不会很快相互抵消。
我们来看一下中间一项趋向到0有多慢。我们对2号老鼠做了3次技术复制,因此总共需要15个样本才能得到和5个生物学重复相同的术语。
三种重复的比较
- 只做生物学重复
- 结果接近于μ,最好的
- 即做生物学重复又做技术重复
- 你需要做大量的生物学重复,才能使平均值更接近于μ,否则均值=μ+常数
- 只做技术重复
- 最差的,平均值=μ+技术重复的变异