在进行共线性分析的时候需要准备两个文件:一个是blast文件,一个是gff文件。这两个文件都是需要经过相应处理的。在这里还是稍微跟同学们说一下原理:共线性的本质其实就是找序列相似的基因,所以它需要用到blast,也就是说blast提供的是基因与基因之间的关系,事实上你blast做好了也就完成了共线性;但是,完成之后,你要向别人展示你的结果,怎么展示就需要借助gff,因为这个文件提供的是基因在染色体上的位置信息。其中,在进行比对的时候,需要使用蛋白文件进行并且需要一个文件做库,一个文件做query,如果库与query一样,做的就是物种内基因的共线性,如果不同就是做的不同物种间的共线性。在准备两个文件的时候,blast文件的准备时间往往需要几个小时,为了更加快速地进行分析,在新版本的SPDE中加入了新的比对方法。用法如下图所示:
首先,在①放入建库的fasta格式的蛋白文件,在②中输入库的名字,之后点击③即可完成建库。为经常需要建库比对的同学,开发了④,它可以显示已经建好的库,这样可以用于检测正在构建的库是否构建完成,另外提供了已建库的名称以防止不同的库取到了相同的名字。完成后,在⑤中输入query文件,即把query文件中含有的序列比对到库中,在⑥填入比对库的名称,在⑦设定保存到位置以及命名文件(对于共线性分析而言,需要blast文件和gff文件除了后缀名不同外,其余相同),然后点击⑧,最后点击⑨即可完成比对过程。以拟南芥的总蛋白序列为例,SPDE可以在38s内完成13万条序列的比对。
在完成比对后,需要做gff文件,该文件在如下所示区域完成,需要的文件是与比对文件相对应的物种的gff文件:
在生成gff文件后,将两个文件放入
即可完成对所需物种的共线性分析
需要注意的几个问题:
1、目前这个版本,blast那步只能用蛋白序列进行(在后续版本中会修正这个问题);
2、这个操作涉及到了两个文件,一个是blast文件,一个是gff文件,要得到最后的一个结果需要保证blast里面的基因ID与gff里面的基因ID要是相互对应的关系。如下图:
同时,请同学们仔细看好左侧gff文件的格式,后来有些同学向我反映做不出来,其原因就是他所得到gff文件不是一个标准格式。