前言:
自学生信也有一段时间了,对于大多数的生信软件,勉强能混个眼熟,但是要说出他们之间微妙的区别,确实很难。好在,最近看到Nature Communication上一篇可谓是“史上最全RNA-Seq数据分析流程”文献,结合着 生信宝典解读,把整个文章看完,梳理文中所使用的软件,增补广为使用的软件,并做思维导图。
1. Raw data Quality control | 原始数据质控:
- reads质量评估:Fastqc、multicq、PRINSEQ
- reads预处理:trimmomatic、Cutadapt、FASTX-Toolkit、RSeQC、trim-galore、PRINSEQ
2. Alignment and Assembly | 比对组装
2.1 Reference-based transcript identification | 有参转录本鉴定
- Alignment | 序列比对
TopHat 、STAR、HISAT2、RASER、Bowtie2、BWA、SOAP、subread- Alignment-based transcriptome assembly | 转录组组装
- Short-read Assembly 二代短片段组装: Cufflinks、StringTie
- Long-read analysis tools 三代长片段组装:LoRDEC、GMAP、STARlong、IDP
2.2 De novo Assembly | 从头组装:
Trinity、SOAPdenovo-Trans、Oases、Trimmomatic
3. Quantication | 表达定量
Quantication : HTSeq、RSEM、featureCounts、eXpress、kallisto、Sailsh、Salmon-Aln、Salmon-SMEM、Salmon-Quasi
- Alignment-based transcript quantification 比对定量:HTSeq、featureCounts、RSEM、eXpress 、Salmon-Aln
- Alignment-free transcript quantification 无比对定量:Sailfish, Salmon-SMEM、Salmon-Quasi、quasi-mapping, kallisto
- long-read-based technique 长读数定量: IDP(using different short-read and long-read aligners)
4. Differential expression | 差异分析
Dierential expression analysis : DESeq2、edgeR 、limma、Cuffdiff、Ballgown 、Tablemaker、sleuth
- count-based 基于计数:DESeq2, limma, edgeR
- ssembly-based 基于组装 :Cuffdiff 、Ballgown
- alignment-free quantifications 无比对定量:sleuth
5. RNA-seq variation analysis | 变异分析
RNA-seq data can be used to identify important genomic and transcriptomic variations
- Variant Calling 序列变异:SAMtools 、GATK
- RNA Editing 基因编辑:GIREMI、Varsim
- RNA Fusion 基因融合:FusionCatcher、JAFFA、SOAPfuse、STAR-Fusion、TopHat-Fusion
说明:
RNA_seq经典分析流程,序列比对、组装、定量……,而这里为了兼顾无参转录组分析,将其列在“2. Alignment and Assembly | 比对组装”中,使框架更加清晰可读,便于读者理解。
文献来源:Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown