在进行高通量分析的过程中,经常需要从NCBI或EBI下载动辄几十G的高通量数据,这东西,就算是神如迅雷,也是应付不了了,这个时候,为了加快传输速度,我们需要使用Aspera来高速传输了。
概览
- 下载安装文件
- 准备工作
- 使用方法
下载安装文件
首先到<a href="http://downloads.asperasoft.com/en/downloads/8?list">官网</a>选择对应系统版本,并下载
> wget http://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz
>tar -xvf aspera-connect-3.6.2.117442-linux-64.tar.gz
解压之后,得到一个脚本,运行之
>sh aspera-connect-3.6.2.117442-linux-64.sh
运行完了之后,整个安装过程就完成了,其会在~
目录下生成.aspera
目录,其所有文件均在这个文件夹下。
准备工作
为了方便使用,我们需要进行一些准备工作,首先,需要将脚本位置加入环境变量以方便使用(不加入环境变量也可以,每次拷贝~/.aspera/connect/bin/ascp
文件到需要下载的目录)
>sudo vim /etc/profile
在文件的末尾加入
export PATH="/home/andy/.aspera/connect/bin:$PATH"
注意替换你的用户名,保存之后为了使其生效
>source /etc/profile
然后,我们需要拷贝密匙文件,以方便我们使用
>cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
最后拷贝一个协议文件
>sudo cp ~/.aspera/connect/etc/aspera-license /usr/local/bin/
至此,准备工作完成
使用方法
一般在NCBI中下载数据,我们能够得到类似的链接
ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX189/SRX189773/SRR576933/SRR576933.sra
在使用Aspera下载时,我们需要去除前面的域名,使用如下命令下载
>ascp -i ~/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByExp/sra/SRX/SRX189/SRX189773/SRR576933/SRR576933.sra .
一定要注意最后的.
,表示下载到当前目录!-i
指向我们刚刚复制的密匙文件!
同理,在EBI中下载,我们得到如下的下载链接
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR576/SRR576933/SRR576933.fastq.gz
同样去除其域名,使用如下的命令下载
>ascp -i ~/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR576/SRR576933/SRR576933.fastq.gz .
其次,还可以使用批量下载方法,首先我们需要创建一个记录了下载链接的文件file-list
,其内容如下
/vol1/fastq/SRR576/SRR576933/SRR576933.fastq.gz
/vol1/fastq/SRR576/SRR576934/SRR576934.fastq.gz
然后使用命令
>ascp -QT -k1 -l 100M -i ~/asperaweb_id_dsa.openssh --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list file-list
这其中,还有-QT
参数,表示开启断点续传,-l
带宽限制,启用该设置能够再次加快速度,从原来的10M/s到达20+M/s。