StringTie: 一款RNA-seq序列转录本重构软件
转录本测序方法通常会产生大于200 million的短序列。针对这样的序列,StringTie可以用来组装转录本,包括de novo。通过模拟数据和真实数据分析结果显示,与其他的软件,包括cufflinks, IsoLasso, Scriputer和Traph相比较, StringTie可以得到更加完整和准确的基因组重建和更好的表达量水平估计。并且,StringTie的分析速度也更加快。
目前有很多的转录本表达定量分析软件(Trinity, Oases, RSEM, eXpress, IsoInfer, Scripture, Cufflinks, SLIDE, IsoLasso, iRechon, Traph)。有研究表明,目前的转录本重建方法,在面对复杂转录本亚型是,性能也不高。StringTie软件可以比其他软件(Cufflinks)多鉴定出36%~ 60%的转录本。
目前,在转录本组装问题上,主要有两种方法。第一种是基于参考基因组的转录本组装算法,使用专门的剪切对齐工具(TopHat, GSNAP, HISAT),将转录本聚类,然后对齐进行进一步组装。第二种是de novo组装,不需要参考基因组,即使参考基因组中缺失的区域,一样可以重建转录本。
StringTie使用了这两种方法,其输入文件不仅包括剪切的read alignments也可以是从reads中预先组装的contigs。
与Cufflinks先找到转录本的最小集合,再评估他们的表达水平不同,StringTie同时组装转录本和评估其表达水平。下图是StringTie和Cufflinks组装转录本的不同流程。StringTie的大致流程是,首先将reads进行分组聚类,然后对每一个聚类创建一个splice graph,然后根据maximum flow算法对每一个聚类,分析其表达量。Cufflinks的主要流程是,首先构建reads之间的overlap graph,然后采用parsimony-based算法,生成最小数量的转录本,然后再计算表达量。
使用Flux Simulator软件生成150 million的75bp paired-end reads(SIM-I, SIM-II)。
从下图可以看出,StringTie的精度和灵敏度都是最高的。