前言
生物信息分析总是避不开从NCBI上下载数据,但是很多时候通过浏览器登录NCBI都费劲,更别说下载大量的数据了。
NR和NT数据库是做序列比对经常用到的数据库
下载链接: Index of /blast/db/FASTA
这两个数据库一直在不断地更新,数据也越来越大,截止到2021年4月,这两数据库压缩包一个95G,一个104G,想要通过网页下载比较困难,所以推荐使用下载工具aspera
所以很必要了解一下NCBI数据下载工具aspera,该软件是由IBM开发,能够最大程度利用宽带速度,下载NR和NT数据库的时候速度能飚到400Mb/s,下载基因组的时候能飚到20Mb/s。
<meta charset="utf-8">
下载安装
下载链接
ascp 官方说明:https://www.ncbi.nlm.nih.gov/books/NBK242625/
选择自己需要的版本,这里选择aspera-connect-3.7.4.147727-linux版本为例。
下载:wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
解压:tar -xzvf aspera-connect-3.7.4.147727-linux-64.tar.gz
安装:sh aspera-connect-3.7.4.147727-linux-64.sh
#此时安装已经完成,去到用户的home目录里能看到一个.aspera目录
秘钥复制: cd;cp ./.aspera/connect/etc/asperaweb_id_dsa.putty .;
cp ./.aspera/connect/etc/asperaweb_id_dsa.openssh ./
# 切换到home路径,将两个重要的配置文件复制到home路径
添加环境变量:echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc ;source ~/.bashrc
ascp --help
就可以正常使用啦
NCBI数据下载示例
##NR下载链接:
https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
##ascp 官方说明:https://www.ncbi.nlm.nih.gov/books/NBK242625/
安装完成后可以使用ascp --help查看帮助,Aspera需要私钥asperaweb_id_dsa.openssh
# 然后在/vol1/agis/gaofei_group/zhangxin/software/NR_database目录下下载nr.gz
cd /vol1/agis/gaofei_group/zhangxin/software/NR_database
ascp -v -k 1 -T -l 400m -i ~/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.gz ./
下载NT
ascp -v -k 1 -T -l 400m -i ~/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./
参数-i表示限制的最大下载速度,一般200m到500m