" RNACocktail是一款集成软件,开发者调查了RNA-seq分析的所有主要步骤,评价了不同步骤下分析工具组合的准确性、效率和一致性,提出了一个综合的RNA-seq分析流程手册--”海底捞“----即在转录组的分析范围内,使用RNACocktail你可以组合不同的分析工具,从而一步完成流程分析。
下载
tar -zxvf rnacocktail-0.3.2.tar.gz 注意:需要python2.X版本
cd rnacocktail-0.3.2
python setup.py install --prefix=~/.local
##由于没有root权限,我这里是指定/.local
RNACocktail本质上来说是一款”调度“软件,它可以调取你本地上所有的转录组分析工具,因此,这些分析工具需要你提前安装在本地,不建议使用conda安装RNACocktail,否则,在分析过程中你需要指定每一款转录组分析软件或者你所有的转录组分析软件都和RNACocktail一样安装在 同一个环境下。
在跑流程过程中,如果那一步”卡住“了,则可能是某一分析工具安装的问题:
软件版本和例子参见:RNACocktail (bioinform.github.io)
软件使用:
#查看每一步的帮助:
Type run_rnacocktail.py -h for help.
Type run_rnacocktail.py align -h for short-read alignment help.
Type run_rnacocktail.py reconstruct -h for short-read transcriptome reconstruction help.
Type run_rnacocktail.py quantify -h for short-read quantification help.
Type run_rnacocktail.py diff -h for short-read differential expression help.
Type run_rnacocktail.py denovo -h for short-read de novo assembly help.
Type run_rnacocktail.py long_correct -h for long-read error correction help.
Type run_rnacocktail.py long_align -h for long-read alignment help.
Type run_rnacocktail.py long_reconstruct -h for long-read transcriptome reconstruction help.
Type run_rnacocktail.py long_fusion -h for long-read fusion detection help.
Type run_rnacocktail.py variant -h for variant calling help.
Type run_rnacocktail.py editing -h for RNA editing detection help.
Type run_rnacocktail.py fusion -h for RNA fusion detection help.
Type run_rnacocktail.py all -h for running all RNACocktail pipeline steps help.
###run_rnacocktail.py all 一步到底的分析,彻彻底底!!
Examples:
注意:RNACocktail需要使用者先建立转录组的索引,我这里就略过了
##使用HISAT2对PE short-reads序列进行比对。
run_rnacocktail.py align --align_idx ./Homo_sapiens.GRCh37.75.dna.chromosome.21.HISAT2
--outdir out --workdir work
--ref_gtf ./Homo_sapiens.GRCh37.75.chromosome.21.gtf
--1 ../A1_1.fq.gz --2 ../A1_2.fq.gz --hisat2 hisat2
--hisat2_sps hisat2_extract_splice_sites.py
--samtools samtools --threads 10 --sample A
###使用Stringtie对short reads转录组重构
run_rnacocktail.py reconstruct
--alignment_bam work/hisat2/A/alignments.sorted.bam
--outdir out --workdir work --ref_gtf ./Homo_sapiens.GRCh37.75.chromosome.21.gtf
--stringtie stringtie --threads 10 --sample A
###使用run_rnacocktail.py all对PE short reads进行全套分析(至差异分析)
run_rnacocktail.py all --outdir out --workdir work --threads 10
--1 ../A1_1.fq.gz,../A2_1.fq.gz ../B1_1.fq.gz,../B2_1.fq.gz
--2 ../A1_2.fq.gz,../A2_2.fq.gz ../B1_2.fq.gz,../B2_2.fq.gz
--sample all_A1,all_A2 all_B1,all_B2 --ref_gtf ./Homo_sapiens.GRCh37.75.chromosome.21.gtf
--ref_genome Homo_sapiens.GRCh37.75.dna.chromosome.21.fa
--align_idx Homo_sapiens.GRCh37.75.dna.chromosome.21.HISAT2
--unzip --file_format fastq.gz --samtools samtools --hisat2 hisat2
--hisat2_sps hisat2_extract_splice_sites.py
--stringtie stringtie --featureCounts featureCounts
总的的来说,RANCocktail对于常规的的转录组分析流程提供了一个不错的一步到位的分析解决思路,但实际上,对于稍微复杂点的转录组数据,使用RNACocktail往往无法调整每一步分析的细节,而这又会对最终的结果造成较大的偏差。因此,从来就没有一步到位且能满足各种情况的完美软件,每一步都需要使用者去理解,调整参数,达到最优值。当然,这个软件的文章却能为我们对转录组分析软件提供新的理解和思考。
文章:
参考:
软件说明书:RNACocktail (bioinform.github.io)
中文说明:2020-08-18 | 39个RNAseq分析工具与对比_穆易青的博客-CSDN博客
文章说明:
Reference-based transcript identification
-
Alignment and junction prediction:Hisat2、TopHat、STAR
Hisat2有最高的剪接位点验证率最高,但总数少于TopHat和STAR。
STAR有最高的唯一比对率,与TopHat和hisat2不同,STAR映射只接受PE比对、避免对SE seq的映射,另一方面,也会产生低质量的比对和更多的软连接和碱基错误率。即对接受未比对和软剪切(soft-slipping)具有较高的”接受容忍度“,因此,相比较而言, TopHat和Hisat2会有更高比例的reads unmapped。
在比对速度方面:Hisat2比STAR和TopHat快2.5和100倍。
-
Alignment-based transcriptome assembly:Cufflinks和StringTie
在对reads进行比对之后,可以进行转录本组装。除了Cufflinks和Stringtie,还有一款IDP(Isoform Detection and Prediction,二+三代混合组装工具),IDP运用了综合的方法,将short-read 比对运用到long-read isoform的检测上,可以接受从GMAP、STARLong的long-read alignment(长序列比对,三代),也可以接受来自TopHat2,STAR和Histat2的short-read alignment(短序列比对,二代)。
评估结果:
在识别每个转录本的外显子上:
Cufflinks 和 Stringtie能识别更多单外显子转录本,但大部分属于FPs( Isoforms missing in the reference were considered false positives),且Stringtie能比Cufflinks多预测出50-200%的转录本,同时,Stringtie能够预测的有5个以上亚型(per gene)的基因数量是前者的50倍,且Stingtie输出亚型分布结果和genecode更加一致。IDP能识别最少的外显子(主要是它不为单外显子基因设计,更加适合检测每个基因的多种亚型,且其亚型分布结果和genecode更加一致)。在基因水平的组装:
敏感度和准确性:IDP > Cufflinks > StringTie.在转录本水平的组装:
Stringtie 比 Cufflinks 高出平均11%的准确度和25%的敏感性。虽然IDP比其它软件在准确度上个20%,然而其预测结果的准确性限制在检测多外显子上,但敏感性比Stringtie低,比cufflinks高,对于Stringtie和IDP,含有较多的内含子基因更有可能代表新的亚型(novel isoforms)。
StringTie是最快的工具,组装速度分别高60和50倍的cufflink和IDP,总之,在转录本亚型上,建议使用Stringtie进行组装,而在基因水平,建议用Cufflinks进行组装。
De novo transcript assembly
- De novo transcript assembly:Trinity、Oases、SOAPdenovo-Trans
- Trinity更加倾向预测长的可变剪切,更多的基因和转录本。
- Oases 能产生最高的N10至N50,表明其在检测长的可变剪切上具有优势。在低表达基因的组装上具有优势。
- SOAPdenovo-Trans在高表达转录本的组装具有优势,平均比对质量比其余两款高3%,且在较低的内存和计算要求下,SOAPdenovo的表现最佳。
Transcript quantification
注:定量分为两大类:基因层次和转录本亚型层次,基因层次的定量使用GTF文件中的外显子和基因坐标信息,将reads比对信息与之对应,常用的软件有Featurecounts、HTSeq-count等
-
Alignment-based transcript quantification:
基于比对的转录本定量,传统方法是将reads比对到参考基因组或转录组上,相对而言,比对到转录本上计算耗时更小,可直接将reads和转录本序列比对,但无法发现新的转录本(除非是从头组装)。
比对到转录组:RSEM,eXpress;比对到基因组:featurecounts、Stringtie,Cufflinks(即其兼具比对和定量的功能)。
注:Featurecounts需要比对结果,但不需要组装转录本,无法定量新的转录本,Stringtie、Cufflinks、RSEM、eXpress两者均需要,这里还需要注意的是:Stringtie,Cufflinks是基于基因组比对,在不给出已知GTF注释文件的情况下,可以用来发现新的转录本亚型,也是比对基因组作定量,如果给出assembly.gtf,则也可以定量新的转录本、两者不冲突。
Stringtie参考:stringTie:转录本组装和定量工具 (qq.com)
-
Alignment-free transcript quantification:
不基于比对的定量是直接将reads分配给transcripts,相对于比对定量,主要优势就是更快,软件有:Sailfish、Salmon。
作者最后给出了RAN-seq常规分析高准确性的pipeline:
总之,在RNA-seq分析过程中,需要考虑的问题是:分析目的是基因还是转录本?有参还是无参?是否需要比对?是否需要组装转录本?(featurecount)?比对到参考转录组还是参考基因组计数?