gffcompare的使用说明

参考文献:Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown #一定要看!
说明书:http://ccb.jhu.edu/software/stringtie/gff.shtml
参考文章:https://www.jianshu.com/p/5b104830751b #使用类似的cufflinks的附件做的
参考文章:https://www.jianshu.com/p/1f5d13cc47f8 #未用gffcompare导致出现大量未知转录本

一、简介

比较不同样本的转录本定量信息需要先将转录本信息储存为相同的格式,一般组装软件的输出结果都是gtf或gff。由于在组装的过程中产生了大量的新的转录本信息,而我们仅通过肉眼观察其唯一的注释信息----染色体上的起始位置,很显然无法阐明其中蕴含的生物学意义,因此我们需要将它们与已知的转录本注释文件---annotation.gtf进行比较,将新得到的转录本与注释好的转录本之间建立联系,这样可以让我们更好地发现新的转录本。而gffcompare就是做的这个工作,由于它是基于cufflinks的一个附件cuffcompare开发的,因此很多原理及输出文件的格式也与cuffcompare类似。


不用gffcompare得到的信息只有染色体上的定位

使用gffcompare可以得到与参考转录本的关系信息

二、使用方法及参数说明

使用方法:gffcompare [options] gtf.file(s)
常用表达:gffcompare –G –r annotation.gtf -o output.prefix input.gtf(s)

常用参数说明:

-r 提供注释好的gtf文件
-G 比较输入的gtf中所有的转录本,即使它们有可能是冗余的
-o 输出文件的前缀
-i 如果gtf是很多文件,可以通过-i 提交一个gtf文件的list文件

所有参数

gffcompare v0.11.2
-----------------------------
Usage:
gffcompare [-r <reference_mrna.gtf> [-R]] [-T] [-V] [-s <seq_path>]
    [-o <outprefix>] [-p <cprefix>]
    {-i <input_gtf_list> | <input1.gtf> [<input2.gtf> .. <inputN.gtf>]}

 GffCompare provides classification and reference annotation mapping and
 matching statistics for RNA-Seq assemblies (transfrags) or other generic
 GFF/GTF files.
 GffCompare also clusters and tracks transcripts across multiple GFF/GTF
 files (samples), writing matching transcripts (identical intron chains) into
 <outprefix>.tracking, and a GTF file <outprefix>.combined.gtf which
 contains a nonredundant set of transcripts across all input files (with
 a single representative transfrag chosen for each clique of matching transfrags
 across samples).

 Options:
 -v display gffcompare version (also --version)
 -i provide a text file with a list of (query) GTF files to process instead
    of expecting them as command line arguments (useful when a large number
    of GTF files should be processed)

 -r reference annotation file (GTF/GFF)
 --strict-match : the match code '=' is only assigned when all exon boundaries
    match; code '~' is assigned for intron chain match or single-exon

 -R for -r option, consider only the reference transcripts that
    overlap any of the input transfrags (Sn correction)
 -Q for -r option, consider only the input transcripts that
    overlap any of the reference transcripts (Precision correction);
    (Warning: this will discard all "novel" loci!)
 -M discard (ignore) single-exon transfrags and reference transcripts
 -N discard (ignore) single-exon reference transcripts
 -D discard "duplicate" query transfrags (i.e. those with the same
    intron chain) within a single sample (disable "annotation" mode)
 -S like -D, but stricter duplicate checking: only discard matching query
    or reference transcripts (same intron chain) if their boundaries are fully
        contained within other, larger or identical transfrags; if --strict-match
    is also given, exact matching of all exon boundaries is required
 --no-merge : disable close-exon merging (default: merge exons separated by
        "introns" shorter than 5 bases

 -s path to genome sequences (optional); this can be either a multi-FASTA
    file or a directory containing single-fasta files (one for each contig);
    repeats must be soft-masked (lower case) in order to be able to classify
    transfrags as repeats

 -T do not generate .tmap and .refmap files for each input file
 -e max. distance (range) allowed from free ends of terminal exons of
    reference transcripts when assessing exon accuracy (100)
 -d max. distance (range) for grouping transcript start sites (100)
 -V verbose processing mode (also shows GFF parser warnings)
 --chr-stats: the .stats file will show summary and accuracy data
   for each reference contig/chromosome separately
 --debug : enables -V and generates additional files:
    <outprefix>.Q_discarded.lst, <outprefix>.missed_introns.gff,
    <outprefix>.R_missed.lst

Options for the combined GTF output file:
 -p the name prefix to use for consensus transcripts in the
    <outprefix>.combined.gtf file (default: 'TCONS')
 -C discard matching and "contained" transfrags in the GTF output
    (i.e. collapse intron-redundant transfrags across all query files)
 -A like -C but does not discard intron-redundant transfrags if they start
    with a different 5' exon (keep alternate TSS)
 -X like -C but also discard contained transfrags if transfrag ends stick out
    within the container's introns
 -K for -C/-A/-X, do NOT discard any redundant transfrag matching a reference

三、输出文件说明

1、class codes

是指一些代码,用于表示input中的转录本与annotation中的转录本的关系,代码对应关系如下图所示


class code

2、输出文件六个,前四个文件可以指定保存位置,后两个文件是跟输入的gtf文件保存在一个位置,并且都是以-o提供的前缀开头的

gffcmp.annotated.gtf:包含了class code信息,该文件一般用于下文继续stringtie
gffcmp.stats:包含了feature的统计信息,也包含了找到新的外显子、内含子的数目,其中有两个统计量sensitivity和precision,定义为 Sensitivity is defned as the proportion of genes from the annotation that are correctly reconstructed,whereas precision (also known as positive predictive value) captures the proportion of the output that overlaps the annotation
gffcompare.loci:见说明书
gffcompare.tracking:见说明书
gffcompare_result.refmap:这个文件包含四列信息,第一列ref_gene_id是gene symbol ,无symbol的给出的是ensemble的gene id; 第二列ref_id是指ensemble的transcript id; 第三列class_code 是“=”和“c”;第四列是cuff_id_list。这个文件指组装后与参考基因组几乎完全匹配的转录本
gffcompare_result.tmap:包含了转录本的定量信息,如cov,FPKM等,可用于定量或筛选新转录本

四、如何寻找新的转录本

1、上游:hisat2+stringtie+stringtie-merge
2、中游:gffcompare
3、下游:stringtie+gffcompare.result
4、下下游:ballgown定量及差异分析

新转录本的特征为(参考别人的文章)

1、class code满足标准,如满足”i,j,o,u,x“等
2、统计信息达标,如FPKM>=0.5 、coverage >1,Length > 200等

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容