在RNA-seq分析中,有一个步骤是将比对好的片段(alignments)重新组装(assembly)成全长转录本(full-length transcripts)。一直不理解这一步的意义以及过程,直到最近好好研究了一下,同时看了Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown,恍然大悟,特此记录一下。 下面的示例代码皆是出自上文。本人才疏学浅,如果不对的地方,希望指正。
在Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown明确提到,对于参考基因组注释文件非常好的物种,如果只对已知的,注释完善的的基因进行表达定量,差异分析,可以跳过转录本拼接(transcript assembly)。直接定量。但是如果是研究lncRNA等这些新转录本的话,就需要重新组装转录本,具体过程是对于每一个测序文件,以原始的注释文件为基础,将比对到基因组的片段通过首尾的重叠区域拼接成尽可能长的的转录本(full-length transcript)
获得一个数据格式与注释文件相同的GTF文件。示例代码如下:
stringtie -p 2 -G ../data/genome/gff/tair10.gtf -o SRR3418005.gtf -l SRR3418005 ../alignment/SRR3418005.bam &
得到SRR3418005这个测序文件对应的GTF文件 SRR3418005.gtf,如下图所示:
与tair10.gtf相比:
以AT1G01070为例,在转录本的识别上,如果与原注释文件片段位置一致,那么在新的注释文件中gene_id "SRR3418005.4" transcript_id "SRR3418005.4.1的转录本即为reference_id “AT1G01020.2” ,ref_gene_id "AT1G01070"。另一个转录本也是如此。
详细比较见下图:
对比可知相互匹配关系。
文章中也有关于比对过程的示意图:
新转录本有SRR3418005.3.1:
并没有任何已知的基因转录本与之匹配。
每一个测序文件都生成一个注释文件。需要整合成一个完整的包含本次测序所有的转录本的信息的文件:
stringtie --merge -p 2 -G ../data/genome/gff/tair10.gtf -o stringtie_merged.gtf gtflist.txt
# gtflist.txt里面是各个gtf文件路径和文件名
也可以使用gffcompare对stringtie_merged.gtf与tair10.gtf进行比较,统计新的转录本的数量。
gffcompare -r ../../data/genome/gff/tair10.gtf -G -o merged ../stringtie_merged.gtf
合成一个新的stringtie_merged.gtf,作为注释文件来对基因及其转录本进行定量,重新计算FPKM/TPM。
stringtie -e -p 2 -G ../../assembly/stringtie_merged.gtf -A SRR3418005_genes.gtf -o SRR3418005_transcripts.gtf ../../alignment/SRR3418005.bam &
我计算了一下发现基因的FPKM/TPM值 大致是与 各个转录本的FPKM/TPM值是相等的。这个前提应该是转录本和基因的长度是相同或者差别不大。
以上就是我对转录拼接的深刻认识。