今天测试另一个环状RNA预测的重要软件——CIRCexplorer2。该软件是由中国科学院上海生命科学研究院生物化学与细胞生物学研究所陈玲玲研究组和计算生物学研究所杨力研究组共同开发的,他们团队已经在《Cell》, 《Mol Cell》和《Genome Res》等国际顶尖杂志发表多篇环状RNA研究文章。
CIRCexplorer2继承了CIRCexplorer主要功能并增加了很多新的特性。它支持TopHat2/TopHat-Fusion, STAR, MapSplice, BWA and segemehl等多种RNA aligners, 并且能够精确地注释预测到环状RNA。更为重要的是,该工具可以侦测到多种环状RNA可变剪切事件,并且能够de nove组装环状RNA全长转录本。下图展示了CIRCexplorer2的工作流程:
====下载和安装====
地址:https://github.com/YangLab/CIRCexplorer2
安装:
我一般首先conda
conda install circexplorer2 -c bioconda
conda install -c bioconda star
conda install -c bioconda ucsc-gtftogenepred
或者:
pip install circexplorer2
或者直接从源代码安装
====比对====
在CIRCexplorer2的帮助文档中提到:Although different aligners showed slight difference incircular RNA identification, TopHat2/TopHat-Fusion has a perfect match withCufflinks.
目前,大多数该软件的帖子都基于TopHat2/TopHat-Fusion流程。但是:值得注意的是,align模块仅提供了针对单端序列使用tophat进行比对的功能,如果你是双端测序的结果或者想要使用其他软件,只能是自己手工进行比对,这里比较推荐STAR软件,速度较快,缺点就是内存消耗较大。
因此,我们今天的流程将从支持的比对软件STAR展开。STAR是一款 ENCODE计划的御用软件,在17年Nature Communications 发表RNA-seq分析软件比较中, STAR较 TopHat 和 HASAT2来说,具有较高的唯一比对率(highest fraction of uniquely mapped read pairs),对错配具有较高的容忍度。
建立索引:
STAR --runThreadN 40 --runMode genomeGenerate --genomeDir STAR_index/ --genomeFastaFiles Nitab-v4.5_genome_Scf_Edwards2017.fasta --sjdbGTFfile Nitab-v4.5_gene_models_Scf_Edwards2017.gtf --sjdbOverhang 149 --limitGenomeGenerateRAM 800000000000
其中:--runThreadN :线程数
--genomeDir :index输出的路径
--genomeFastaFiles :参考基因组
--sjdbGTFfile :参考基因组注释文件--sjdbOverhang :这个是reads长度的最大值减1,默认是100,我们是PE150的reads
STAR建索引特别吃内存,能把你服务器内存吃光,然后给你报错。此时你就要根据你的内存设置limitGenomeGenerateRAM参数,此处设置比所需内存高一点点,如果低于所需内存也会报错。另外线程数可以设置高一点,内存消耗会因为线程数变多而增加,不过不用担心,并不会成倍增加,40个线程内存消耗也就增加了10%。
比对:
STAR --genomeDir STAR_index/ --readFilesCommand gunzip -c --runThreadN 60 --chimSegmentMin 20 --chimScoreMin 1 --alignIntronMax 500000 --outFilterMismatchNmax 4 --alignTranscriptsPerReadNmax 100000 --twopassMode Basic --outSAMtype BAM SortedByCoordinate --chimOutType Junctions SeparateSAMold --outFilterMultimapNmax 2 --outFileNamePrefix CK_0_1 --readFilesIn CK_0_1_1.fq.gz CK_0_1_2.fq.gz
parse:
parse用于解析序列比对的结果,支持多款软件,用的STAR的比对结果
CIRCexplorer2 parse -t STAR CK_0_1Chimeric.out.junction -b back_spliced_junction.bed > CIRCexplorer2_parse.log
annotation:
这一步就是根据已知的线性转录本信息,识别环状RNA,用法如下:
CIRCexplorer2 annotate -g Nitab-v4.5_genome_Scf_Edwards2017.fasta -r refFlat.txt -b back_spliced_junction.bed -o circularRNA_known.txt > CIRCexplorer2_annotate.log
输出结果如下所示:
每一列的含义如下所示:
本文使用 文章同步助手 同步