1.gffcompare软件介绍
当与参考注释文件进行比较时,gffcompare可用于比较、合并、注释和估计一个或多个GFF文件的准确性。
2.gffcompare软件使用
gffcompare [options]* {-i <input_gtf_list> | <input1.gtf> [<input2.gtf> .. <inputN.gtf>]}
-i:txt文件包含所要处理GTF文件的列表。
-o:指定输出文件名的前缀,默认为gffcmp。
-r:可选的参考注释GFF文件,每个样本map到这个文件,样本亚型被标记为重叠的、匹配的或新的。
-R:如果指定-r,这个选项将让gffcompare忽略没有被输入gtf所overlap的参考转录本。
-Q:如果指定-R,这个选项会导致gffcompare忽视与参考转录本没有overlap的输入gtf。
-M:丢掉单外显子转录本和参考转录本(只考虑多外显子转录本)。
-N:丢掉单外显子的参考转录本(没有丢弃单外显子转录本)。
-D:丢弃单个样本中重复(冗余)转录本[禁用注释模式]。
-s:基因组序列位置,会评估"repeat"('r')这个classcode。
-p:共有/组合转录本前缀(默认TCONS)
-C:从.combined.gtf输出中去掉contained (包含)转录本。
-A:与-C类似,如果它们从不同的5'外显子开始(保留备用转录起始位点),但不会丢弃内含子冗余转录本。
-X:与-C类似,但是如果转录本的末端突出在container‘s的内含子中,也会丢弃包含的转录本。
-K:用于-C/-A/-X,不丢弃任何与参考转录本冗余的转录本。
-T:不产生.tmap和.refmap文件。
3.输出文件
*.stats:报告了与参考注释相比的输入转录本的准确性(或一致性)相关的各种统计数据。
*.combined.gtf:当提供多个GTF/GFF文件时,gffcompare会产生一个GTF文件,其中包含每个样本中所有转录本的“并集”。如果两个样本中都存在具有相同内含子链的转录本,那么在组合.gtf输出。
*..annotated.gtf:如果提供单个GTF/GFF查询文件作为输入,并且没有指定删除“重复的”/“冗余”转录本的特定选项(-D、-S、-C、-A、-X),则gffcompare将输出一个名为*.annotated.gtf的文件而不是*.combined.gtf文件。
*.tracking:匹配样本之间的转录本。
*.refmap:对于每个参考转录本,查询的转录本是完全还是部分匹配到参考转录本上。
*.tmap:对于每个转录本最佳的参考转录本。
4.转录本分类
如果使用-r选项,将含有一列class code,表明转录本与最接近参考转录本之间的关系。5.实例
评价StringTie合并组装后的转录本的质量。
gffcompare -R -r reference.gtf -o strtcmp stringtie_merge.gtf