生信常用数据库(二):NT数据库和NR数据库搭建

前言

    NR和NT数据库是做序列比对经常用到的数据库,小编接下来带你在本地集群上搭建这两个数据库

下载

下载链接: Index of /blast/db/FASTA

    这两个数据库一直在不断地更新,数据也越来越大,截止2020-10-21,这两数据库压缩包一个82G,一个81G,想要通过网页下载比较困难,所以推荐使用下载工具aspera,使用教程可参考小编的另一个博客 NCBI数据下载工具:aspera的安装与使用 - 简书

    使用以下命令下载:

cd /database/NR

ascp -i ~/asperaweb_id_dsa.openssh  -QTr -l500m  anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.gz ./     #NR

cd /database/NT

ascp -i ~/asperaweb_id_dsa.openssh  -QTr -l500m  anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./       #NT

安装使用:

    这两个数据库下载下来后进行解压,解压完后建立blast的索引即可进行使用,在建立索引之前需要将blast软件bin文件添加到环境变量~/.bashrc中

gunzip -c nr.gz >nr.fa  #解压

makeblastdb -in nr.fa -dbtype prot  #makeblastdb 已添加环境变量

gunzip -c nt.gz >nt.fa   #解压

makeblastdb -in nt.fa -dbtype  nucl  #nt为核酸序列,-dbtype 为nucl

    此时该数据库可以直接使用,以NR数据库进行blastp为例

blastp -num_threads 8 -max_target_seqs 1 -evalue 1e-4 -outfmt '6 qseqid qlen qstart qend sseqid slen sstart send pident ppos qcovs bitscore evalue' -db /database/NR/nr.fa.00 -query test.fa -out test.fa.blast

数据库官方参考:https://www.biostars.org/p/235632/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容