写在前面
课题组目前做一些基因组相关工作。了解基因组的朋友应该明白,基因结构注释错误几乎遍布所有基因组,包括我们目前看到的大多数即使是发表在顶级期刊的工作。生物是复杂的,而算法是存在局限的。所以人工矫正基因结构注释往往是最终选择之一。目前,市面上基本只有一个工具可以做到,那么是一款叫做Apolle Browser的浏览器。现在已经是第二代【第一代似乎已经无法下载到】,一个常用的网页基因组浏览器JBrowser的一个插件实现。配置起来并不方便,涉及到各类软件的安装。所以最好的选择或许还是直接使用IGV。本文提到的改造,没有之前IGV-sRNA的改动大,主要原因是,我失败了。不过这并不影响目的的基本达成【失败只是相对于暂时定位过高的目标】。以下,直接讲述操作,作为课题组师弟师妹的使用指引。
主要分为三步:
- IGV中定区间,指定基因ID
- TBtools中转换输出的文件为gff3格式【即是最优基因结构注释】
- 替换原始GFF3文件对应的内容
第一步 - IGV中定区间
我写工具,往往会考虑操作的难度。所以要求用户在IGV中定区间,我做了一些简单的东西,使得用户可以相对轻松的完成。
如下
可以看到这是一个错误的注释,或者是没注释出来。换句话说,其中已有的那个注释,本身很可能是一个错误的注释。
首先,使用IGV的区间工具,选中几个区间,你可以一次选择一个外显子,也可以使用多个有重叠的区间,覆盖一个外显子(后续会自动合并)。
如下,我分几步走,先用短的覆盖边界
随后,我继续使用区间工具,增加一些跟以上区间重叠的外显子区间
在Region Navigator中可以看到
这个窗口一般不关闭,完成一个基因之后,我个人的建议是,先Assign成一个基因,首先是选中这些区间,然后点击Assign
然后关闭小窗口,那么就会直接Assign一些信息上去
注意,其中GeneName必须是唯一的,Positive是转录本在正反链,我们用的是链特异,所以这些是负链的基因,Coding与否,你要有自己的判断,我是直接截取这个区间,BlastX到NCBI,看了下,知道这个是Coding
针对每一个基因,可以一直重复一个操作。那么就会有一系列的基因
第二步
完成了你人工矫正的步骤之后,在IGV中导出regions.bed
随后,打开TBtools
将文件设置进去,注意到必须输入文件是一个,即regions.bed
如果你的是Coding的基因,那么最好是也输入基因组序列文件,这样TBtools会自动判断并输出CDS的Feature;如果没有基因组序列文件,那么就不会有CDS feature,即使你输入的是Coding的。
点击Start,会在非常短的时间内完成。
这个生成的gff3文件,可以直接导入到IGV
于是,我们完成了基因的结构注释人工矫正。
我们手上的IGV是已经改造过的。所以,我们这个时候还可以做一个有趣的事情,直接点击对应的转录本
随后打开TBtools,黏贴进去
是的,你点击了一下转录本,就直接在剪切板中得到了全长CDS【这个功能是前几天我增加进去的】。
于是你还得到了对应的蛋白序列,找个公共数据库BlastP
可以看到,我们确实完成了一个正确的基因结构注释的人工矫正。
荔枝基因组从此多了一个基因注释。
写在后面
当然,还有第三步,那么就是替换gff3,但是...暂时懒得写了。以后再算吧。