本地blast是序列比对操作中经常用到的程序,但由于其原程序需要在命令行进行,这给需要进行序列比对但不熟悉命令行的同学带来了一定麻烦。为解决这个问题,SPDE中实现了本地blast的界面化操作。具体过程如下所示:
在进行blast之前,同学们需要明确两个概念。第一个是库,它指的是比对到的对象,例如你有一个杨树基因A,你想知道它在拟南芥中的同源基因是谁,那么这个时候就应以拟南芥中的序列建库;第二个是query序列,如刚刚的例子,基因A就是你的query序列。进行blast过程的第一步是要建库,涉及到的是上图的1、2、3三个部分。1是要求你的序列文件,基本类型是fasta格式(在这个操作中,请将文件路径以及名称中的空格去掉);2是对库进行命名,如果你的序列文件是蛋白质文件,那么这里填入的应该是“prot-”加上库的名称,如果是DNA序列文件,则应填入的是“nucl-”加库的名称,如prot-ARF。 同样库的名称也不要有空格(这里稍微啰嗦一句,请同学们在命名文件夹或者文件的时候尽量养成不使用空格的习惯,包括SPDE在内的很多程序对空格很敏感 ,这也就是为什么有些同学明明操作软件的各个步骤都对,但它仍然报错的原因,如果就是要分开名字中的单词,可以使用下划线);在1和2完成后,点击按钮3即可完成建库。当然,如果你经常要比对到某一物种中,建库的时候只需要建一次就好。在用过一次后,距离下一次用可能已经有很长时间,甚至可能自己都忘记有没有建过库,这个时候可以点击按钮4来查看已经建过的库。库的构建完成后,接下来就是比对。有两种输入文件的方法,如果仅仅只是想要比对单个序列,那么直接将序列放入5这个位置就好(当然,如果是多个序列,就放入含序列的文件的路径),在6这个位置填入的是库的名字(默认的evalue阈值是1e-5,如果想要改变阈值,就在库的名字后面加空格再加evalue值,例如ARF 1e-10)。之后,点击需要的功能(在7这个位置),这里,我只介绍blastn和 blastp,其他功能同学们可以自行百度,会有很详细的讲解。其中blastn,n指的是核苷酸即DNA序列比对;blastp中的p指的是蛋白质序列,当然query序列和你库的序列,在使用这两个功能的时候需要保持一致,即DNA比对到DNA库,蛋白质比对到蛋白质的库。位置8填入需要保持文件的位置以及文件名称。完成后点击按钮9就可以完成比对。如果有些库在用过一次之后就不需要再使用了,可以先在位置6填入库的名称,点击按钮10就可以将这个库删除掉。虽然形成文字可能比较多,但实际操作过程是非常简洁的,有需要的同学可以尝试。
hmmersearch功能主要用于基因家族成员的鉴定。hmm文件可以通过NCBI或者hmm官方网站获取。在下载到需要的文件后,还是按照老规矩,先对下载的文件进行格式化:
之后,将文件填入到hmmersearch功能的位置1中;该功能的对象是蛋白质序列文件,在准备好文件后,填入位置2;之后,选择保存位置并命名(在位置3),点击按钮4即可完成。
计算共线性关系时,需要准备两个文件,一个是blast文件,一个是gff文件,需要注意这两个文件的名字应该相同比如blast文件是A.blast,那么gff文件应该叫A.gff。那么,这两个文件该如何准备呢?blast文件可以在这里生成:
注意,比对的时候应该是用蛋白序列进行。gff文件在这里生成:
该模块的功能介绍会在后续公布。完成文件准备后,即可进行共线性分析,生成的结果在blast文件所属的文件夹中。
在进行测序结果的比对时,每个菌的测序结果是在一个txt文件里的,如果要比对,往往需要将不同文件内容和到一个文件里。在SPDE的如下功能中
可以帮助用户在不打开文件的情况下将内容合并。注意的点是将这些需要合并的文件放到一个空的文件夹中,而放入的也是这个空文件夹所在的路径(而不需要文件名)。之后点击按钮即可合并。
接下来的是三种比对方法
输入文件是fasta格式的序列文件。之后的功能使用,只需要按照相应功能按钮的数字提示进行即可。