流程
1 实验设计
1 第一个重要点是去除核糖体RNA(rRNA),要么利用polyA选择性富集mRNA(真核生物mRNA中含有polyA尾结构,因此可以使用oligoT与其特异性的匹配,从而在Total RNA中特异性的富集mRNA),要么除去rRNA(原核生物就只能这样)
2 第二个是测序深度。这主要取决于具体实验的要求,倒没有统一规定。
2 数据分析
原始片段,我们建议异常值>30%的将被丢弃。
序列比对,例如,我们预计有70%到90%的常规rna测序可以比对到人类基因组上。有参考基因组和转录组的,可以mapping,而没有的话就要组装reads成转录组。
序列组装,太多或者太少reads都不利于组装。无论是有参考还是没有,使用短读Illumina技术完全重建转录组仍然是一个具有挑战性工作,而新兴的长读技术,如来自太平洋生物科学公司的SMRT,提供了足够长的长读序列来为大多数基因排序,这是一个很有前途的替代方案,将在下面的“展望”部分进一步讨论。
差异表达分析,最近的独立比较研究表明,方法的选择(甚至软件包的版本)可以显著影响分析的结果,没有一种方法可能对所有数据集都有良好的效果。因此,我们建议充分记录所使用程序的设置和版本号,并考虑使用多个软件包进行重要分析的重复。
可变剪切分析。
首先,当复制样本数量非常少或基因表达水平非常低时,所有方法的使用都需要特别谨慎。在这些工具中,limma被证明在许多情况下都表现良好,而且它也是运行最快的。DESeq和edgeR在基因排序中表现相似,但在控制FDR时往往相对保守或过于自由。SAMseq在FDR中表现良好,但当复制数相对较高时(至少10 ),SAMseq的敏感性是可以接受的。noiseq和NOISeqBlO (noise eq用于生物复制的适应性)在避免假阳性方面更有效,但代价是牺牲一定的灵敏度,但在不同的重复次数下表现良好。在比较中,Cuffdiff和Cuffdiff2的表现令人惊讶地差。这可能反映了这样一个事实,即在转录水平上检测差异表达仍然具有挑战性,涉及到将reads分配给其他亚型的不确定性。在最近的一项比较中,BitSeq优于其他转录级包,如Cuffdiff2。除了实际性能之外,影响工具选择的其他问题还包括安装和使用的方便性、计算要求和文档质量等。另外一些差异表达工具只能进行两两比较,其他的如edgeR , limma-voom, DESeq , DESeq2和maSigPro可以执行多重比较,包括不同的协变量或分析时间序列数据。
未来2个方向
单细胞转录组和长片段测序。