我们下载的nr数据库非常大,2017年9月更新后所有nr的fasta文件已达72G,因而在进行nr比对时,如果不对nr库以类别进行区分,会非常耗我们的计算资源和时间,因而最好对下载的nr数据库进行分库,可以更准确快速的完成nr数据库比对。
nr数据库分库操作步骤:
首先明确我们需要分库的类别:细菌,真菌,真核生物,脊椎动物,植物
目前以脊椎动物为例,介绍如何进行nr数据库分库。
首先我们要得到脊椎动物的分类学ID,即NCBI数据库Taxonomy数据库的ID,如果我们不知道,可以通过已知脊椎动物的拉丁名在Taxonomy数据库中查找可得到以下界面
点击protein选项可得到如下界面
在linage中可看到红圈中的脊椎动物的分类,单击Vertebrata连接,可进入到脊椎动物的介绍页面,再单击Vertebrata可得到脊椎动物的分类学ID 7742
再次进入到Taxonomy页面,在搜索框中粘贴如7742这个ID。可得到以下的页面
单击右上角send to ,如图
点击creat file 将gi_list 存入到本地,基因ID较多需要花费较长时间。
得到GI list后,使用blast+的工具进行分库
blastdb_aliastool -gilist Vertebrata.gi -db /lustre/guest/bjjszx/nr/nr_database/nr -out Vertebrata_nr -title Vertebrata_nr
运行上述命令,即可得到两个文件
Vertebrata_nr.pal
Vertebrata_nr.p.gil
即可完成对于nr数据库的分库操作。
进行blast比对时,数据库填写成/path/to/Vertebrata_nr即可完成对于脊椎动物库的比对。