RNAseq总体分析流程分为四步:
1)alignment of the reads to the genome
2)assembly of the alignments into full-length transcripts
3)quantification of the expression levels of each gene and transcript
4)calculation of the differences in expression for all genes among the different experiment conditions
HISAT+StringTie+Ballgown相比于TopHat2+Cufflinks速度要更快,使用的内存更少,全局分析结果更佳。
【HISAT】将RNA-seq reads 比对到参考基因组上,寻找可变剪切位点。
【StringTie】将reads组装呈全长或部分长度的转录本,根据需要创造多个isoforms并预测基因和转录本的表达水平
【Ballgown】分析差异表达基因
试验设计:
每一个处理设置6个重复,
需要注意的是3次重复是得到有效统计结果的最少重复次数。
支持时间进程实验和多个处理的分析。
作者以human Chr X的RNA-seq数据为例,对分析流程进行讲解,Chr X包含151M的基因组信息,约占人类全基因组的5%,有很多基因富集。
具体分析流程