RNA-seq分析软件“海底捞“--RNACocktail

" RNACocktail是一款集成软件,开发者调查了RNA-seq分析的所有主要步骤,评价了不同步骤下分析工具组合的准确性、效率和一致性,提出了一个综合的RNA-seq分析流程手册--”海底捞“----即在转录组的分析范围内,使用RNACocktail你可以组合不同的分析工具,从而一步完成流程分析。

57416942772E46ACA2FBF6F1B2311019.jpg

下载

tar -zxvf rnacocktail-0.3.2.tar.gz   注意:需要python2.X版本
cd rnacocktail-0.3.2
python setup.py install --prefix=~/.local
##由于没有root权限,我这里是指定/.local

RNACocktail本质上来说是一款”调度“软件,它可以调取你本地上所有的转录组分析工具,因此,这些分析工具需要你提前安装在本地,不建议使用conda安装RNACocktail,否则,在分析过程中你需要指定每一款转录组分析软件或者你所有的转录组分析软件都和RNACocktail一样安装在 同一个环境下。
在跑流程过程中,如果那一步”卡住“了,则可能是某一分析工具安装的问题:
软件版本和例子参见:RNACocktail (bioinform.github.io)

软件使用:

D4DD89DCCBB8484DA4EC06A2BC8FFE37.jpg
#查看每一步的帮助:
Type run_rnacocktail.py -h for help.
Type run_rnacocktail.py align -h for short-read alignment help.
Type run_rnacocktail.py reconstruct -h for short-read transcriptome reconstruction help.
Type run_rnacocktail.py quantify -h for short-read quantification help.
Type run_rnacocktail.py diff -h for short-read differential expression help.
Type run_rnacocktail.py denovo -h for short-read de novo assembly help.
Type run_rnacocktail.py long_correct -h for long-read error correction help.
Type run_rnacocktail.py long_align -h for long-read alignment help.
Type run_rnacocktail.py long_reconstruct -h for long-read transcriptome reconstruction help.
Type run_rnacocktail.py long_fusion -h for long-read fusion detection help.
Type run_rnacocktail.py variant -h for variant calling help.
Type run_rnacocktail.py editing -h for RNA editing detection help.
Type run_rnacocktail.py fusion -h for RNA fusion detection help.
Type run_rnacocktail.py all -h for running all RNACocktail pipeline steps help.
###run_rnacocktail.py all 一步到底的分析,彻彻底底!!

Examples:

注意:RNACocktail需要使用者先建立转录组的索引,我这里就略过了

##使用HISAT2对PE short-reads序列进行比对。
run_rnacocktail.py align --align_idx ./Homo_sapiens.GRCh37.75.dna.chromosome.21.HISAT2 
    --outdir out --workdir work 
    --ref_gtf ./Homo_sapiens.GRCh37.75.chromosome.21.gtf 
    --1 ../A1_1.fq.gz --2 ../A1_2.fq.gz --hisat2 hisat2 
    --hisat2_sps hisat2_extract_splice_sites.py 
    --samtools samtools --threads 10 --sample A

###使用Stringtie对short reads转录组重构
run_rnacocktail.py reconstruct 
    --alignment_bam work/hisat2/A/alignments.sorted.bam 
    --outdir out --workdir work --ref_gtf ./Homo_sapiens.GRCh37.75.chromosome.21.gtf 
    --stringtie stringtie --threads 10 --sample A
    
###使用run_rnacocktail.py all对PE short reads进行全套分析(至差异分析)
run_rnacocktail.py all --outdir out --workdir work --threads 10 
    --1 ../A1_1.fq.gz,../A2_1.fq.gz ../B1_1.fq.gz,../B2_1.fq.gz 
    --2 ../A1_2.fq.gz,../A2_2.fq.gz ../B1_2.fq.gz,../B2_2.fq.gz 
    --sample all_A1,all_A2 all_B1,all_B2 --ref_gtf ./Homo_sapiens.GRCh37.75.chromosome.21.gtf 
    --ref_genome Homo_sapiens.GRCh37.75.dna.chromosome.21.fa 
    --align_idx Homo_sapiens.GRCh37.75.dna.chromosome.21.HISAT2 
    --unzip --file_format fastq.gz --samtools samtools --hisat2 hisat2 
    --hisat2_sps hisat2_extract_splice_sites.py 
    --stringtie stringtie  --featureCounts featureCounts

总的的来说,RANCocktail对于常规的的转录组分析流程提供了一个不错的一步到位的分析解决思路,但实际上,对于稍微复杂点的转录组数据,使用RNACocktail往往无法调整每一步分析的细节,而这又会对最终的结果造成较大的偏差。因此,从来就没有一步到位且能满足各种情况的完美软件,每一步都需要使用者去理解,调整参数,达到最优值。当然,这个软件的文章却能为我们对转录组分析软件提供新的理解和思考。

文章:

Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis | Nature Communications

参考:

软件说明书RNACocktail (bioinform.github.io)
中文说明2020-08-18 | 39个RNAseq分析工具与对比_穆易青的博客-CSDN博客

文章说明:

Reference-based transcript identification

  • Alignment and junction prediction:Hisat2、TopHat、STAR
    Hisat2有最高的剪接位点验证率最高,但总数少于TopHat和STAR。
    STAR有最高的唯一比对率,与TopHat和hisat2不同,STAR映射只接受PE比对、避免对SE seq的映射,另一方面,也会产生低质量的比对和更多的软连接和碱基错误率。即对接受未比对和软剪切(soft-slipping)具有较高的”接受容忍度“,因此,相比较而言, TopHat和Hisat2会有更高比例的reads unmapped。
    在比对速度方面:Hisat2比STAR和TopHat快2.5和100倍。
  • Alignment-based transcriptome assembly:Cufflinks和StringTie
    在对reads进行比对之后,可以进行转录本组装。除了Cufflinks和Stringtie,还有一款IDP(Isoform Detection and Prediction,二+三代混合组装工具),IDP运用了综合的方法,将short-read 比对运用到long-read isoform的检测上,可以接受从GMAP、STARLong的long-read alignment(长序列比对,三代),也可以接受来自TopHat2,STAR和Histat2的short-read alignment(短序列比对,二代)。

评估结果:

  • 在识别每个转录本的外显子上:
    Cufflinks 和 Stringtie能识别更多单外显子转录本,但大部分属于FPs( Isoforms missing in the reference were considered false positives),且Stringtie能比Cufflinks多预测出50-200%的转录本,同时,Stringtie能够预测的有5个以上亚型(per gene)的基因数量是前者的50倍,且Stingtie输出亚型分布结果和genecode更加一致。IDP能识别最少的外显子(主要是它不为单外显子基因设计,更加适合检测每个基因的多种亚型,且其亚型分布结果和genecode更加一致)。

  • 在基因水平的组装:
    敏感度和准确性:IDP > Cufflinks > StringTie.

  • 在转录本水平的组装:
    Stringtie 比 Cufflinks 高出平均11%的准确度和25%的敏感性。虽然IDP比其它软件在准确度上个20%,然而其预测结果的准确性限制在检测多外显子上,但敏感性比Stringtie低,比cufflinks高,对于Stringtie和IDP,含有较多的内含子基因更有可能代表新的亚型(novel isoforms)。
    StringTie是最快的工具,组装速度分别高60和50倍的cufflink和IDP,总之,在转录本亚型上,建议使用Stringtie进行组装,而在基因水平,建议用Cufflinks进行组装。

De novo transcript assembly

  • De novo transcript assembly:Trinity、Oases、SOAPdenovo-Trans
  1. Trinity更加倾向预测长的可变剪切,更多的基因和转录本。
  2. Oases 能产生最高的N10至N50,表明其在检测长的可变剪切上具有优势。在低表达基因的组装上具有优势。
  3. SOAPdenovo-Trans在高表达转录本的组装具有优势,平均比对质量比其余两款高3%,且在较低的内存和计算要求下,SOAPdenovo的表现最佳。

Transcript quantification

注:定量分为两大类:基因层次和转录本亚型层次,基因层次的定量使用GTF文件中的外显子和基因坐标信息,将reads比对信息与之对应,常用的软件有Featurecounts、HTSeq-count等

  1. Alignment-based transcript quantification:
    基于比对的转录本定量,传统方法是将reads比对到参考基因组或转录组上,相对而言,比对到转录本上计算耗时更小,可直接将reads和转录本序列比对,但无法发现新的转录本(除非是从头组装)。
    比对到转录组:RSEM,eXpress;比对到基因组:featurecounts、Stringtie,Cufflinks(即其兼具比对和定量的功能)。
    注:Featurecounts需要比对结果,但不需要组装转录本,无法定量新的转录本,Stringtie、Cufflinks、RSEM、eXpress两者均需要这里还需要注意的是:Stringtie,Cufflinks是基于基因组比对,在不给出已知GTF注释文件的情况下,可以用来发现新的转录本亚型,也是比对基因组作定量,如果给出assembly.gtf,则也可以定量新的转录本、两者不冲突。

Stringtie参考:stringTie:转录本组装和定量工具 (qq.com)

  1. Alignment-free transcript quantification:
    不基于比对的定量是直接将reads分配给transcripts,相对于比对定量,主要优势就是更快,软件有:Sailfish、Salmon。

作者最后给出了RAN-seq常规分析高准确性的pipeline:

3847A2E7EDB64C5793572D546E1C9661.jpg

总之,在RNA-seq分析过程中,需要考虑的问题是:分析目的是基因还是转录本?有参还是无参?是否需要比对?是否需要组装转录本?(featurecount)?比对到参考转录组还是参考基因组计数?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,204评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,091评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,548评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,657评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,689评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,554评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,302评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,216评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,661评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,851评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,977评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,697评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,306评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,898评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,019评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,138评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,927评论 2 355

推荐阅读更多精彩内容