RNA-seq数据和microassay在差异表达分析上的区别:
- RNA-Seq观察到的数据是抽样过程中产生的离散(discrete) count形式。也就是说总体是恒定的(测序深度是恒定的),表达量越高的基因在抽样结果中所占的比例越大。表达量低的基因可能即便有也无法被检测出来。当然重新对相同文库进行测序,还是有可能找到更多表达的转录本
- microassay检测的是荧光信号的连续度量。由于使用固定的核酸序列去交。所以不是一种"零和游戏",只要能杂交,就能被检测。(但如果没有设计相应的引物,就不能检测到可能的基因)
RNA-Seq的概率分布
image
RNA-Seq是目前基因表达分析最常用的技术。分为以下几步
- 分离所有mRNA
- 逆转录mRNA成cDNA
- 对cDNA测序
- 比对参考基因组
RNA-Seq实验设计中的“重复”包括:技术重复和生物学重复
重复是为了检测组间和组内的变异,对于假设检验至关重要。
技术重复为了估计测量技术(RNA-Seq)的变异。
生物学重复是为了发现生物组内的变异。
简单的说,两组的基因表达的变化只有比组内变异还大时才能认为时显著的。
- 相同基因在不同细胞的表达水平服从log-normal(对数正态)分布,由定量PCR验证。 (注:这与相同细胞不同基因表达的分布不同)但是大多数基因表达实验都是用一群细胞,几乎没有相应分布提出。
- RNA-Seq试验中,抽样得到的raw read counts服从泊松分布。并且同一样本在两次试验中的结果不同,这称为shot noise。这种变异在RNA-Seq技术重复间称为Possion noise。
- 生物学上不同的样本间的差异服从负二项(negative binomial)分布,有时称gamma-Poisson分布。
- 由于RNA-Seq count数据也表现出zero inflation(大量值为0)的特征,所以很难拟合到负二项分布,所以有文章认为要用Poisson-Tweedie family建模。
研究意义
在不同背景下比较mRNA水平
同一物种,不同组织:研究基因在不同部分的表达情况
同一物种,同一组织:研究基因在不同处理下,不同条件下的表达变化
同一组织,不同物种:研究基因的进化关系
时间序列实验: 基因在不同时期的表达情况与发育的关系基因分类: 找到细胞特异,疾病相关,处理相关的基因表达模式,用于诊断疾病和预测等
基因网络和通路: 基因在细胞活动中的功能,基因间的相互作用。