前言
生物信息分析总是避不开从NCBI上下载数据,但是很多时候通过浏览器登录NCBI都费劲,更别说下载大量的数据了,所以很必要了解一下NCBI数据下载工具aspera,该软件是由IBM开发,能够最大程度利用宽带速度,小编下载NR和NT数据库的时候速度能飚到400Mb/s,下载基因组的时候能飚到20Mb/s。
下载安装
下载链接:Aspera - Connect | IBM然后选择 请参阅所有安装程序选择自己需要的版本,小编这里选择aspera-connect-3.7.4.147727-linux版本为例。
下载:wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
解压:tar -xzvf aspera-connect-3.7.4.147727-linux-64.tar.gz
安装:sh aspera-connect-3.7.4.147727-linux-64.sh #此时安装已经完成,去到用户的home目录里能看到一个.aspera目录
秘钥复制: cd;cp ./.aspera/connect/etc/asperaweb_id_dsa.putty .;cp ./.aspera/connect/etc/asperaweb_id_dsa.openssh ./# 切换到home路径,将两个重要的配置文件复制到home路径
添加环境变量:echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc ;source ~/.bashrc
已可以使用该下载工具下载数据
NCBI数据下载示例
小编想从NCBI上下载拟南芥基因组和NR数据库,于是从NCBI上扒拉得到下载链接https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/735/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.fna.gz 和https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
只要运行一下下边命令即可下载得到基因组和NR数据库:
基因组:ascp -i ~/asperaweb_id_dsa.openssh -QTr -l200m anonftp@ftp.ncbi.nlm.nih.gov:genomes/all/GCF/000/001/735/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.fna.gz ./
NR数据库:ascp -i ~/asperaweb_id_dsa.openssh -QTr -l500m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/FASTA/nr.gz ./
其他的下载地址可以参考该下载命令,只要稍加修改即可,参数-i表示限制的最大下载速度,一般200m到500m,其他参数小编了解的不是很清楚,感兴趣可以去官网上翻阅。
aspera的其他应用
对于生信分析来说,aspera还可以下载EBI数据,还有Windows版本的该软件,大家可以去官网研究,最后小编在这里提醒一下,因为该软件能最大利用宽带,所以下载时最好进行限速,以免影响别人的工作。