低丰度也意味着可靠性低,所以就算是差异大,也不会有太高的置信度
1) 低表达量的基因为什么往往差异不显著;
在计算两个组样本间基因的表达量是否有差异的时候,对于RNA-seq实际上就是分析这个基因的reads数量在两组间是否存在显著差异。对于有生物学重复的实验设计来说,随机误差就包括测序随机误差和生物样本的个体差异。其中,对于低表达的基因来说,测序的随机误差影响是比较大的。打个比方:1个低丰度的基因A,在对照组是平均 2条reads,处理组是平均4条reads。1个高丰度的基因B,在对照组是平均 2000条reads,处理组是平均4000条reads。虽然看起来两个基因的表达差异倍数都是上调了2倍。但是,我们很容易判断,A基因的表达差异受测序随机误差影响的概率更大(从2随机波动到4),但基因B的表达差异来自测序随机误差的概率则更小(从2000波动到4000的可能性较小)。从统计学上说,就是A基因差异不显著,B基因差异极显著。所以,这就解释了为什么低表达的基因往往即使差异倍数较大,其差异也是不显著的,是因为其定量准确性较差。如果要提高低丰度基因的定量准确性,那么只有两种途径:
1)提高生物学重复的数量;
2)提高单个样本的测序量。
(2)在差异计算表达量的时候, 0表达量基因的如何处理;
在进行差异统计检验的时候,reads数量为0的基因,是允许存在的(不影响检验)。但在计算基因表达差异倍数的时候,如果处理组(分母)的表达是0,当然就会出现不可除(分母不能为0)。所以,我们一般会给0表达的基因加上1个极小值(例如,0.001)。这样既不明显影响结果,又解决了表达差异倍数不可计算的问题。
(3)在所有样本中都低表达的基因,是否有分析的意义;
一般而言,在所有样本中表达量都极低的基因往往是不会有重要的生物学意义的。所以在分析结果中,可以将其删除不考虑。当然,低丰度基因的定义并没有标准,是人为设定的。例如,在所有样本中表达量RPKM均值小于1。但也不排除,某些低丰度的基因就是我们的研究目的。要研究这样的基因,首先就要提高测序的准确性。如同上文提到的,可以使用提高生物重复样本数或加大测序量,来提高测序定量的精度。然后还需要使用Qpcr进行进一步验证。由于Qpcr可以进行更高的扩增循环数,所以对于低丰度基因的检测敏感度,Qpcr是高于一般的RNA-seq的。