低表达量的基因为什么往往差异不显著

低丰度也意味着可靠性低,所以就算是差异大,也不会有太高的置信度

1) 低表达量的基因为什么往往差异不显著;

在计算两个组样本间基因的表达量是否有差异的时候,对于RNA-seq实际上就是分析这个基因的reads数量在两组间是否存在显著差异。对于有生物学重复的实验设计来说,随机误差就包括测序随机误差和生物样本的个体差异。其中,对于低表达的基因来说,测序的随机误差影响是比较大的。打个比方:1个低丰度的基因A,在对照组是平均 2条reads,处理组是平均4条reads。1个高丰度的基因B,在对照组是平均 2000条reads,处理组是平均4000条reads。虽然看起来两个基因的表达差异倍数都是上调了2倍。但是,我们很容易判断,A基因的表达差异受测序随机误差影响的概率更大(从2随机波动到4),但基因B的表达差异来自测序随机误差的概率则更小(从2000波动到4000的可能性较小)。从统计学上说,就是A基因差异不显著,B基因差异极显著。所以,这就解释了为什么低表达的基因往往即使差异倍数较大,其差异也是不显著的,是因为其定量准确性较差。如果要提高低丰度基因的定量准确性,那么只有两种途径:

1)提高生物学重复的数量;
2)提高单个样本的测序量。

image.png

(2)在差异计算表达量的时候, 0表达量基因的如何处理;

在进行差异统计检验的时候,reads数量为0的基因,是允许存在的(不影响检验)。但在计算基因表达差异倍数的时候,如果处理组(分母)的表达是0,当然就会出现不可除(分母不能为0)。所以,我们一般会给0表达的基因加上1个极小值(例如,0.001)。这样既不明显影响结果,又解决了表达差异倍数不可计算的问题。

(3)在所有样本中都低表达的基因,是否有分析的意义;

一般而言,在所有样本中表达量都极低的基因往往是不会有重要的生物学意义的。所以在分析结果中,可以将其删除不考虑。当然,低丰度基因的定义并没有标准,是人为设定的。例如,在所有样本中表达量RPKM均值小于1。但也不排除,某些低丰度的基因就是我们的研究目的。要研究这样的基因,首先就要提高测序的准确性。如同上文提到的,可以使用提高生物重复样本数或加大测序量,来提高测序定量的精度。然后还需要使用Qpcr进行进一步验证。由于Qpcr可以进行更高的扩增循环数,所以对于低丰度基因的检测敏感度,Qpcr是高于一般的RNA-seq的。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 书名基因:不平等的遗传作者(美)道尔顿·康利(Dalton Conley) / (美)詹森·弗莱彻(Jason F...
    xuwensheng阅读 10,910评论 1 11
  • 时间飞逝,又是一周周末,这周看了二场电影:《七十七天》和《寻梦环游记》,看《七十七天》的时候,里面一句“有些...
    露丹儿阅读 2,256评论 1 2
  • 这两年遇到了一些人,一些人留在了侧脸的记忆里,另外一些人一两年才能见一次,剩下一些人是我们看得见的地方 我决定要跟...
    20岁的某一天阅读 3,276评论 6 6
  • 你于寒风中 矗立千年 历经岁月蹉跎 皇权变迁 佑护四方伶仃等待中 舍近求远 你才是真正的 佛系少年
    _星期九_阅读 2,206评论 0 1
  • 概述 内边距 边框 外边距 外边距合并 盒子模型应用 概述 内边距 边框 CSS边框:我们可以创建出效果出色的边框...
    雪_晟阅读 1,404评论 0 0