CIRI: an efficient and unbiased algorithm for de novo circular RNA identification
background
这款工具由中科院北京生命科学研究院的赵老师组的工作,2015年发表在genome biology
1.从RNA-seq数据中识别circRNA所遇到的问题:
a. circRNA比其他RNA在细胞中的比例低,一般RNA-seq的实验步骤中,不包括circRNA富集的步骤,所以在RNA-seq中的circRNA比较低,假阳性也高。
b.目前的注释文件根据线性RNA进行的,所以也不适合circRNA的识别,尤其是非模式动物的注释信息。
c.由于RNA测序数据的reads长度差别大,也对检测circRNA工作带来了不便。
d.套索结构和融合基因同circRNA的reads结果类似,不好区分。
2.文章中总结了从2012年到2014年出现的几种检测circRNA的方法:
a.Salzman Cell-type specific features of circular RNA expression 用了一个依赖注释信息的方法来检测circRNA,通过搜索已知注释的外显子边界来查找,并在最近的工作中更新了方法,加入了false discovery rate 控制比对的质量分数。
b.Memczak Circular RNAs are a large class of animal RNAs with regulatory potency用GT-AG信号来找寻splicing 位点,也有其他工作用类似的方法筛选micorRNA-sponge 的候选circRNA。这种方法会找不到“长外显子1-短外显子-长外显子2”形成的环形结构,这种结构中一条测序Read上会有三个部分,第一部分序列属于长外显子1,第二部分序列属于短外显子,第三部分序列属于长外显子2。 Memczak的方法只是把一条序列切成两部分,这种算法会把“长外显子1-短外显子-长外显子2”丢掉,或者识别成“长外显子1-长外显子2”。
c.Jeck Circular RNAs are abundant, conserved, and associated with ALU repeats 采用了比较的方法,比较没有经过RNase处理和经过RNase处理的序列的结果,用来确定潜在的circRNA,消除假阳性。这种方法在富集circRNA阶段会有系统误差。
summary --CIRI
CIRI是采用sam格式中的CIGAR值进行分析的,从sam文件中扫描PCC信号(paired chiastic clipping signals)。 CIGAR值在junction read的特征是xS/HyM或者xMyS/H,其中x,y代表碱基数目,M是mapping上的,S是soft clipping,H是hard clipping。对于单外显子成环,或者“长外显子1-短外显子-长外显子2”形成的环形结构,CIGAR值应该是xS/HyMzS/H以及(x+y)S/HzM或者xM(y+z)S/H,CIRI软件可以很好的将这两种情况分开。对于paired-end reads,CIRI算法会考虑一对reads,其中一条可以mapping到circRNA上,另一条也需要mapping到circRNA的区间内。对于splicing 信号(GT,AG) CIRI也会考虑其他弱splicing 信息例如(AT-AC),算法会从GTF/GFF文件中抽取外显子边界位置,并用已知的边界来过滤假阳性。
软件参数介绍:
result
1.CIRI耗时情况
sam文件大,circRNA个数多会使软件运行时间较长。
2.circRNA与某些肿瘤细胞发生相关
对比996个exon circRNA 来源基因的转录情况,发现CIRI预测的circRNA结果比较可靠
3.circRNA在参考基因组上的位置信息
结果文件将会直接给出circRNA来源于exon,intron,intergenic的情况
在本文章的实验中发现:鉴定出的98526个circRNA,其中19.2%的circRNA来源于intron region,其中5%的circRNA落在了intergenic region
4.目前环状RNA的研究尚处于起步阶段,很多机制和功能不清楚。然而,环状RNA有着巨大的应用潜力,根据cirRNA的稳定性,cirRNA的广泛性,保守性及组织特异性,这些性质都预示着它在未来可能成为一种新型的生物标志物
编辑
manual
1.安装bwa
$wget http://jaist.dl.sourceforge.net/project/bio-bwa/bwa-0.7.9a.tar.bz2$tarjxf bwa-0.7.9a.tar.bz2-C/opt/biosoft/$cd/opt/biosoft/bwa-0.7.9a/$make$echo'PATH=$PATH:/opt/biosoft/bwa-0.7.9a'>>~/.bashrc$source~/.bashrc
2.bwa进行比对(nohup or no)
bwa index-abwtsw ref.fa##建立索引bwa mem –T19ref.fa reads.fq1>aln-se.sam2>aln-se.log(single-end reads)bwa mem –T19ref.fa read1.fq read2.fq1>aln-pe.sam2>aln-pe.log(paired-end reads)
3.利用CIRI鉴定circRNA(gtf or no)
perlCIRI.pl-P-Itest.sam-Ooutfile-Ftest.fa-Atest.gtf