通过spliced reads的mapping能发现线性RNA和环状RNA的剪切方式不同。一个是正常的5’/3’前后剪切,一个是反向的5’/3’反向剪切(Memczak et al.2013.Nature)。
====建库策略====
环状RNA 测序数据量
如果使用环状RNA 建库的策略,建议测序量不低于6G/样本(植物)
如果采用普通lncRNA 文库,建议植物的测序量不低于12G/样本,动物则推荐16G/样本以上的测序量。
建库策略的选择
如果是环状RNA 未报导的物种,建议优先采用环状RNA 建库的策略,以便对环状RNA有更好的检测效率,发现尽可能多的环状RNA。
如果是环状RNA 已报导,且认为目标环状RNA有较高的丰度,同时又特别关心环状RNA 与其他线性RNA 的相互作用关系,则可以考虑使用普通lncRNA 文库的策略。
所以,我们实验的方案都是采用环状RNA建库的。
====鉴定方法========
CircRNA检测的基本原理是去识别反向剪切的位点(back-splice),最主要的circRNA类型是外显子来源的,当然,在内含子、间区、UTR区域、lncRNA区域以及已知转录本的反义链区域也都鉴定到circRNA,同一个位点可能形成多个circRNA,每个circRNA可能包含一个或多个外显子。CircRNA的数量从几千到几万都有可能。要研究circRNA,鉴定是第一步,也是最重要的一步,目前已经有一些pipeline,鉴定得到的circRNA是否准确和全面,取决于算法的严谨性和可靠性。
根据已发表的文献,环状RNA的鉴定方法分为三类:
1. 从头预测(abinitio)的方法:find_circ(如下图)(Memczaketal., 2013),将不能和基因组比对上读段的两端各取20bp作为锚点,再将锚点作为独立的读段往基因组上比对并寻找唯一匹配位点,如果两个锚点的比对位置在线性上方向呈反向,那么就延长锚点的读段,直至找到环状RNA的接合位置(junction),若此时两侧的序列分别为GT/AG剪接信号,则判断为潜在的环状RNA。
2. 基于RNA-seq比对工具如:Tophat-fusion(KimandSalzberg, 2011)、Mapsplice(Wanget al., 2010)、STAR(Dobinet al., 2013)、segemehl(Hoffmannet al., 2014)等,以寻找融合基因的思想检测环状RNA(如下图):先将不能比对到转录本上的读段提取出来,再根据软件预测结果找出处于同一条染色体上的融合基因,最后根据基因组注释文件中外显子的边界来判断是否为环状RNA。(这也是目前最常用的方法)
3. 专门为寻找环状RNA而设计的算法和工具(如下图)如CIRI,它考虑了经典的环状RNA以及一些短外显子成环状RNA的情况,同样以GT-AG剪接信号和外显子边界得到环状RNA。
===鉴定方法比较====
2015,NAR发表了来自于丹麦奥尔胡斯大学(Aarhus University)的研究人员(Comparison of circular RNA prediction tools)利用普通的RNA-Seq数据比较了5种常用的环状RNA预测软件(见表1)。
这些算法都依赖外部比对工具,CIRCexplorer和Mapsplice需要有注释信息,其他三种可以不依赖注释信息,但是准确性会有所下降。耗用资源方面,仅finc_circ可以用单机运算(8G RAM),CIRI耗用资源最多。
测试数据:
物种:人
数据:SRR444655和SRR444975,未用RNaseR处理,该文章中主要用于分析的数据;
SRR444974和SRR445016,使用RNaseR处理,用于验证预测方法预测得到的circRNA准确性的数据。
测序仪器:Hiseq2000,pair-end。
测序量:31.4-41.3GB/样本。
预测结果比较
首先,研究人员用5个软件分别对同一个rRNA-depleted RNA-Seq数据集进行分析。他们发现各个算法给出的环状RNA数目从1500(circRNA_finder)到4000(CIRI)不等,并且只有854个同时被5个软件发现(如下图所示)。
为了验证软件给出的circRNA是否可信,研究人员试图引入线性RNA酶消化(RNase R)的RNA-Seq数据来判断预测到的circRNA是否存在假阳性。
结果显示不同的软件给出的circRNA对RNase R的抵制效率不同,其中,CIRI表现最差,有28.03%的假阳性率(见下图)。
研究人员还关心每个软件预测出的表达量最高的100个circRNA是否真的是环状。他们分别以junction read数目对环状RNA进行排序,观察表达量高的前100个环状RNA是否被线性RNA酶消化。
同样,在CIRI的预测中高表达的环状RNA有超过半数(63%)不可靠。MapSplice和CIRCexplorer是表现最好的两款软件,分别只有9%和6%的circRNA被消化(图下图)。
通过比较现有的circRNA预测软件,我们可以看到不同的算法表现差异较大,用户在使用的时候需要小心。(从venn图也可以看出其实overlap的概率是不高的)
CIRCexplorer和MapSplice输出最可信的circRNA列表,主要的原因是这两个算法依靠已知的基因注释文件,明确的序列注释信息可以帮助他们降低假阳性率,但也限制了这两个软件不能发现de novo的环状RNA。
CircRNA_finder和find_circ也有着很高的准确性,并且这两个软件可以独立于基因注释信息运行,预测全新的环状RNA。
由于单个软件往往在一个方面存在着一定的局限性,且数据表明能够被多个算法预测到的环状RNA有着较高的可信度,因此,在实际项目中,推荐大家多使用两到三个环状RNA预测软件,进而取它们的交集。
对于任意两种方法检测的效果,文中也做了比较:
从图中我们可以看到,两种方法联用可以降低假阳性,提高准确率。
本文使用 文章同步助手 同步