本文参考徐洲更hoptop
若有转录组,可从以下方面进行分析
1、 基于HISAT2 + StringTie
首先,使用HISAT2将RNA-seq数据比对到参考基因组, 这一步和之前相似,但是要增加一个参数--dta,使得StingTie能更好的利用双端信息
hisat2-build 01-augustus/genome.fa index/chi_masked
hisat2 --dta -p 20 -x index/chi_masked -1 rna-seq/leaf_ox_r1_1.fastq.gz -2 rna-seq/leaf_ox_r1_2.fastq.gz | samtools sort -@ 10 > rna-seq/leaf_ox_r1.bam &
hisat2 --dta -p 20 -x index/chi_masked -1 rna-seq/ox_flower9_rep1_1.fastq.gz -2 rna-seq/ox_flower9_rep1_2.fastq.gz | samtools sort -@ 10 > rna-seq/ox_flower9.bam &
hisat2 --dta -p 20 -x index/chi_masked -1 rna-seq/ox_flower16_rep1_1.fastq.gz -2 rna-seq/ox_flower16_rep1_2.fastq.gz | samtools sort -@ 10 > rna-seq/ox_flower16.bam &
samtools merge -@ 10 rna-seq/merged.bam rna-seq/leaf_ox_r1.bam rna-seq/ox_flower9.bam rna-seq/ox_flower16.bam
然后用StringTie进行转录本预测
stringtie -p 10 -o rna-seq/merged.gtf rna-seq/merged.bam
对于后续的EvidenceModeler而言,它不需要UTR信息,只需要编码区CDS,需要用TransDecoder进行编码区预测
util/cufflinks_gtf_genome_to_cdna_fasta.pl merged.gtf input/chi_masked.fa > transcripts.fasta
util/cufflinks_gtf_to_alignment_gff3.pl merged.gtf > transcripts.gff3
TransDecoder.LongOrfs -t transcripts.fasta
TransDecoder.Predict -t transcripts.fasta
util/cdna_alignment_orf_to_genome_orf.pl \
transcripts.fasta.transdecoder.gff3 \
transcripts.gff3 \
transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3
最后结果transcripts.fasta.transdecoder.gff3用于提供给EvidenceModeler
2. 基于PASA
我之前也提及过,利用Trinity 基于比对进行组装,而后回帖到基因组中即可。
3. maker预测
若利用MAKER进行预测,在利用转录组时,推介使用STAR + StringTie + gffread 获取转录本
如果是StringTie组装的GTF文件,需要做如下的转换
gffread -E sample.gtf -o - | sed -e "s#transcript#match#g" -e "s#exon#match_part#g" > sample.gff
接着使用maker -CTL新建配置文件, 设置如下选项
genome=genome.fa
est=组织1.fa,组织2.fa,组织3.fa
est_gff=组织1.gff,组织2.gff,组织3.gff
protein=protein.fa
est2genome=1
protein2genome=1