nr数据库分库

我们下载的nr数据库非常大,2017年9月更新后所有nr的fasta文件已达72G,因而在进行nr比对时,如果不对nr库以类别进行区分,会非常耗我们的计算资源和时间,因而最好对下载的nr数据库进行分库,可以更准确快速的完成nr数据库比对。

nr数据库分库操作步骤:

首先明确我们需要分库的类别:细菌,真菌,真核生物,脊椎动物,植物

目前以脊椎动物为例,介绍如何进行nr数据库分库。

首先我们要得到脊椎动物的分类学ID,即NCBI数据库Taxonomy数据库的ID,如果我们不知道,可以通过已知脊椎动物的拉丁名在Taxonomy数据库中查找可得到以下界面


nr1.png

点击protein选项可得到如下界面

nr2.png

在linage中可看到红圈中的脊椎动物的分类,单击Vertebrata连接,可进入到脊椎动物的介绍页面,再单击Vertebrata可得到脊椎动物的分类学ID 7742

再次进入到Taxonomy页面,在搜索框中粘贴如7742这个ID。可得到以下的页面

nr3.png

单击右上角send to ,如图

nr4.png

点击creat file 将gi_list 存入到本地,基因ID较多需要花费较长时间。

得到GI list后,使用blast+的工具进行分库

blastdb_aliastool -gilist Vertebrata.gi -db /lustre/guest/bjjszx/nr/nr_database/nr -out Vertebrata_nr -title Vertebrata_nr

运行上述命令,即可得到两个文件

Vertebrata_nr.pal

Vertebrata_nr.p.gil

即可完成对于nr数据库的分库操作。

进行blast比对时,数据库填写成/path/to/Vertebrata_nr即可完成对于脊椎动物库的比对。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容