首先介绍如何在染色体上标注基因家族成员位置。先上图:
要实现这个图需要准备两个文件,一个基因组格式化的fai文件,该文件的获取在:
需要注意的一点是,有些同学可能动过了自己的基因组文件或者有些同学基因组序列文件太大(>3 G)。在格式化的时候可能会报错,这个时候需要同学们对基因组序列文件做一个处理,所用到的功能就是旁边那个按钮“if there is an error (1,2)”。之后将重新生成的基因组序列文件再次导入相应位置以便产生fai文件。这个文件放在了与基因组序列文件的同一文件夹下。
再一个是由gff或者gtf等文件而来的基因家族位置信息文件,其格式如下:
这个文件的获取可以在gff等文件中直接查找,如果成员较多也可以借助SPDE的文件提取功能进行,或者借助本模块的格式化操作功能进行。因此,需要在这里为同学们普及一下gff文件的相应知识,如下:
第一列是染色体ID,第二列意义不大,第三列就是它后面这个片段是什么,比如标记mRNA的就是整个基因转录起始和终止的位置,exon是外显子等,第四列是该片段的起始位置,第五列是该片段的终止位置,第六列是一个得分,第七列是该基因在正链还是负链上,最后是基因ID以及其他一些信息。
可以在 hmmsearch(可参看本专题先前文章)以后根据ID直接在gff文件中直接查找;成员多时,可使用如下功能:
通过输入关键字“gene”/"mRNA"等先把这些信息提取出来,之后把基因ID整理到一个文件里,然后从提取的这些信息中批量操作即可。之后,将不需要的部分删除即可。
第三种方法是借助为本模块设置的格式化功能进行:
其操作模式与之前相同,用户需要根据软件界面提供的信息进行操作。
在文件准备好之后,输入到相应位置即可
之后点击draw即可生成相应图,其中在左侧出现的ID是位于负链上的成员而在右侧出现的ID则是位于正链上的成员。需要补充的一点儿是由于同学的基因组组装水平是在scaffold或者contig水平的,这个时候所谓的染色体会非常多,但考虑到排版的美观,SPDE每一次出图只展示14条片段,如果展示太多了就太拥挤。如下图所示:
可以看到当14条染色体的时候间距还是可以的,但再增加,还要考虑安放基因家族成员的位置,这时就不太美观。当然考虑到一些特殊情况,当多于14条片段时,同学们可以考虑用一组图来表示。也就是需要把fai文件和家族成员的位置文件相应拆开就好。
加下来时染色体共线性图:
要完成上面的图需要做两种文件类型的准备。一个时bed文件,该文件的生成在:
另一个是共线性文件。而共线性文件的生成又要准备两个文件:一个是gff文件;一个是blast文件。blast文件在这里:
需要用蛋白序列进行比对。在最新版本的SPDE中改进了程序,使blast文件生成的时间成本大大缩短,以拟南芥蛋白文件(32 兆)进行自身比对,用时仅为48 S。gff文件的生成则在
两个文件准备好后,在Alignment/hmmer模块生成共线性文件
之后,将生成文件进行格式化
上述过程后就可以开始绘图了
还是按照先前几章所叙述的方式在该放入文件的地方放入文件,有几点需要注意的地方:
1、大家对文件命名尽可能简单,并且在物种名那个地方填入相应名称;2、填写完成后点击提交,即“submit”,此时会在下面的框中出现提交的内容,第一个框还好说,第二个框需要注意删除你bed文件中并不需要展示的染色体或者片段,否则图没法看;3、注意选择保存类型,即“choose save type”;4、尽量将结果保存在一个空文件夹里,如上图所示,在那个框需要填入一个文件夹的名字。完成分别点击“to layout file”以及“to seqids file”,之后点击draw即可,绘制的图片将存在于你设定的文件夹里
需要补充的一点是在做共线性图的时候往往需要对某些基因进行强调,一般会使用不同颜色的线进行标注。在SPDE中添加标注的方法是:
或者打开格式化后的共线性文件: