RNA-Seq基本概念

RNA-seq数据和microassay在差异表达分析上的区别:

  • RNA-Seq观察到的数据是抽样过程中产生的离散(discrete) count形式。也就是说总体是恒定的(测序深度是恒定的)表达量越高的基因在抽样结果中所占的比例越大。表达量低的基因可能即便有也无法被检测出来。当然重新对相同文库进行测序,还是有可能找到更多表达的转录本
  • microassay检测的是荧光信号的连续度量。由于使用固定的核酸序列去交。所以不是一种"零和游戏",只要能杂交,就能被检测。(但如果没有设计相应的引物,就不能检测到可能的基因)

RNA-Seq的概率分布

image

RNA-Seq是目前基因表达分析最常用的技术。分为以下几步

  • 分离所有mRNA
  • 逆转录mRNA成cDNA
  • 对cDNA测序
  • 比对参考基因组

RNA-Seq实验设计中的“重复”包括:技术重复和生物学重复
重复是为了检测组间和组内的变异,对于假设检验至关重要。
技术重复为了估计测量技术(RNA-Seq)的变异。
生物学重复是为了发现生物组内的变异。
简单的说,两组的基因表达的变化只有比组内变异还大时才能认为时显著的。

  • 相同基因在不同细胞的表达水平服从log-normal(对数正态)分布,由定量PCR验证。 (注:这与相同细胞不同基因表达的分布不同)但是大多数基因表达实验都是用一群细胞,几乎没有相应分布提出。
  • RNA-Seq试验中,抽样得到的raw read counts服从泊松分布。并且同一样本在两次试验中的结果不同,这称为shot noise。这种变异在RNA-Seq技术重复间称为Possion noise。
  • 生物学上不同的样本间的差异服从负二项(negative binomial)分布,有时称gamma-Poisson分布。
  • 由于RNA-Seq count数据也表现出zero inflation(大量值为0)的特征,所以很难拟合到负二项分布,所以有文章认为要用Poisson-Tweedie family建模。

研究意义

  1. 在不同背景下比较mRNA水平
    同一物种,不同组织:研究基因在不同部分的表达情况
    同一物种,同一组织:研究基因在不同处理下,不同条件下的表达变化
    同一组织,不同物种:研究基因的进化关系
    时间序列实验: 基因在不同时期的表达情况与发育的关系

  2. 基因分类: 找到细胞特异,疾病相关,处理相关的基因表达模式,用于诊断疾病和预测等

  3. 基因网络和通路: 基因在细胞活动中的功能,基因间的相互作用。

参考:https://www.plob.org/article/11574.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。