植物基因组-基因组分析中的“地图”文件(gff3和gtf文件介绍)

常见的生物信息分析中,基因组的注释文件和参考基因组具有相同重要的功能,如果说参考基因组是一个蕴含着所有资源的宝岛,那么基因组的注释文件就是航海路线图。因此,理解基因组注释文件,将会极大地帮助我们提高生信分析效率。今天,我们的主题就来探究常见的注释文件gff3和gtf。

gff3文件介绍

GFF3(General Feature Format Version 3)是GMOD项目研发的一套存储序列结构信息的通用格式文件,主要进行一个scaffold或者染色体上面每个位置都是什么序列元件的注释信息总结。

如图所示,gff3文件主要有以#开始的行数,为基因注释行,起到注释信息的作用,没有#的行,表示主体部分,整个文件以tab键分隔。

中国春小麦参考基因组各个染色体长度的信息,即保存在#行,不过染色体的长度不是从1开始,而是从第一个注释的基因起始位置开始,这点需要注意,可以从下图看到。

编号1即为第一个基因的起始位置,

编号3为中国春参考基因的第一个基因,因为这里用的是02G版本的基因注释文件,可以看到,它也显示了previous的基因ID,也就是01G时候的基因ID,这里为各位利用小麦做基因组注释的同学提个醒,可以用这个进行01G和02G版本的ID转换。

编号4,是第二基因

编号5,是一个基因的结构注释,该基因chr1a: 40098-70338,是总长度,包括mrna序列,three_prime_UTR(3' UTR), exon,CDS,five_prime_UTR(5' UTR),exon,five_prime_UTR。

中国春参考基因组v1.1 gff3文件

gff3文件包含9列,

1. 染色体,chr1A

2. 版本号,可以看到属于IWGSC_v1.1_201706

3. 基因结构注释,包括gene,mrna,exon,CDs等

4. 起始位置

5. 终止位置

6. score - 该基因结构的评分,一般是对基因结构做比对时的E-value和ab initio gene prediction features时的P-value

7. “+”表示正链,“-”表示负链,“.”表示不需要指定正负链。

8. 步进。对于编码蛋白质的CDS来说,用0,1或2 指定下一个密码子开始的位置。分别表示到达下一个密码子需要跳过的碱基个数。对于其它属性,则用点(.)代替。

9. attributes - 该基因其他属性,可以有多个每个属性之间必须以“;”分割,例如“ID=some-id;Name=some-name;Parent=some-parent”,请注意这个Parent属性,由于基因结构比较复杂,一个序列元件(例如:exon)可能属于另外一个基因(例如:gene),这个Parent属性的意思就是该序列元件在哪个序列元件上面,如果一个序列元件没有Parent属性,说明他的父元件就是scaffold或者chromosome用0,1或2。在中国春v1.1上的参考基因组,同样包含previous选项,这是对使用v1.0的基因ID转换时用的。

GTF文件,GTF全称是Gene transfer format

同样包含9列,以tab键分隔,和gff3文件类似,相信对gff3了解的话,再理解gtf就很容易了,这里我们不再赘述。

IWGSC V1.1 gtf文件

gff3文件转为gtf文件,利用gffread软件即可实现

#gff3转为gtf

gffread reference.gff3 -T -o reference.gtf

#gtf转为gff3

gffread reference.gtf -o- > reference.gff3

有些时候的分析,例如htseq-count对reads进行计数,一般使用gtf文件,所以掌握gff3和gtf文件是非常重要的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容