矫正基因结构注释 - 做有良心的基因家族分析

写在前面

半个月前,我推了一个《任何人都能掌握-基因家族分析》的腾讯课程(原本事实是开给课题组)。在热身课程(完全免费)中,将我个人对基因家族分析的认知和其意义均做了说明,感兴趣的可见 https://ke.qq.com/course/338062?tuin=72ed3eb
其中涉及到一点,即是,基因家族分析中一个常常被忽略甚至忽视的,对科研可能有所贡献的步骤(可能很多培训公司并不会涉及),那就是矫正基因结构注释

为什么要矫正基因结构注释

基因组,尤其是植物基因组,从测序,到组装,到注释,每一个都不简单。甚至存在一种说法,一篇基因组文章,一个组装算法。而事实上,注释也是类似的。即使是拟南芥或者水稻这两个模式生物,都不能保证所有基因的结构都被注释出来。更何况刚发表的基因组?
在基因家族分析讲演中,有这么一个图


从图中可以很直接的看出来,明显至少有那三个基因是缺胳膊少腿
那么,怎么办?当然是选择矫正他啊
基因家族分析,是一个常规工作,既然有意要做这个工作,那么就不应该简单的过家家。我觉得既然要做,就做好他。所以,开着基因家族分析,其实是一个比较好的机会,同时完成对应的家族基因的结构注释矫正

如何矫正

在半个月前的讲演中,其实也已经讲过了,用在线网页工具softberry就可以了,以上图的 Aco005453.1为例,基于motif pattern和domain info,可以明显地看出来,其缺少的是5端,GRAS结构域也被截断了(注意,这个在几乎所有物种的基因组结构注释文件都会出现,因为软件永远不可能保证绝对的准确,至少目前这个事情上是的,而菠萝基因组已经做得很优秀了。)

操作步骤

1.首先,获得这个基因的位置信息
使用TBtools的gff3 gene info工具


打开这个gene info文件即可找到基因的坐标信息

可以看得出来,就是在LG1上
2.提取该基因当前区间,以及上下游5000bp

这个时候我们就得到了这部分序列
3.基于文本直接预测基因模型
打开softberry网页工具 http://www.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind
把上述获得的序列黏贴进去

点击search,很快就可以得到结果

4.查看是否已经补全
上述已经预测除了一个新的基因模型,同样是包含了两个外显子,进行校验
将序列直接提交到NCBI CDD-search

这时,我们得到一个惊喜

我们得到的新的序列,已经补全了CDS,GRAS结构域已经补全,同时还预测出来得了DELLA结构域,说明这个丢失了5端的序列,本身应该是GRAS中DELLA分支的成员,这是不错的结果。
But,矫正结构注释还差一步!
5.重新生成gff3注释文本
上述是通过软件直接预测的,而事实也可以直接通过race实验并做sanger测序完成。无论如何,我们得到的终归是Fasta序列,而对于日后还需要做的各种分析,我们需要的是GFF3或者GTF类的文件,那么怎么办?
用TBtools啊!在很久以前,我就已经实现了这个功能,一个目前来说算是老朋友的需求,由于他文章迟迟没有发,我还是决定开放这个工具,事实也不会影响他的东西。
操作起来很简单
找到并打开这个工具

黏贴新构建成的CDS序列,设置对应的DNA序列(也就是刚才的5000bp上下游),点击Start即可。这样重构的gff3文本最准确。But!生成之后可能需要自己调整下坐标,还是比较麻烦。所以我一般是,DNA序列直接用genome代替(TBtools已经尽可能地考虑了各种比对问题,hsp overlap,末端比对不上等等...),所以这里具体操作是

很快,TBtools就重构出对应等等gff3文本

OK,重构出来的gff3文本跟softberry上面的fgensh的结果一直,是两个exons
说明TBtools这个重构gff3文本的工具,还是可以使用的,具体处理了较多的问题

6.将重构的gff3文本,黏贴替换原始对应的gff3文本的数行
这一步手动操作,不过需要注意,我们预测出来的基因结构,其实存在一定小问题,也就是,其实。。。我们从一开始截取序列就截取错了
我们预测成,这个序列了。怪我!。。。坐标选大了

恩,随意选的一个基因,果然是给我自己下套

后面的这个基因,已经不大可能是真实的基因(无可救药,应该丢掉,可能即使是基于RNAseq数据查看都救不过过来,因为已经是Overlap了,当然可以考虑或许存在不大可能存在的可变剪切?或者是两个GRAS domain?)

  1. 小结

恩。。。我又试了几个基因,基本无解。或者是正好基因与上下游有overlap,或者是基因结构预测后并没有太大的改善。不过似乎也OK,毕竟我们大概可以知道其中两个基因并不真实。
如果要证明他们是否真实,可能还是需要RNAseq数据辅助,或者事实上,需要race实验。得到序列之后,再按照上述操作,用TBtools重构gff3即可。

写在最后

嗯,意料之外,情理之中。
据我个人了解,菠萝基因组应也是经过了基因结构注释的人工矫正。所以从某个角度来说,大部分基因结构应是正确。可能单纯从文本预测上,确实无法改善结构注释信息。而只能发现一些确实有问题的序列。对于这些序列,或者是事实并不存在的假基因,或者是需要race实验做进一步获取。
无论哪一种途径,得到序列之后可以直接用TBtools重构gff3信息,并修改原始gff3文件。做进一步分析。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容