Aspera Connect软件是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同,可以免费使用它下载高通量测序文件,体验高速丝滑的过程。速度可飙至300~500M/s。
1. Aspera Connect命令行工具ascp的安装
首先,进入Aspera Connect的下载页面,选择linux版本,复制下载地址,最新的版本是4.2.3。
wget https://d3gcli72yxqn2z.cloudfront.net/downloads/connect/latest/bin/ibm-aspera-connect_4.2.3.197_linux.tar.gz
tar xvf ibm-aspera-connect_4.2.3.197_linux.tar.gz
bash ibm-aspera-connect_4.2.3.197_linux.sh
很遗憾我没有成功,编译时报错version 'GLIBCXX_3.4.20' not found (required by /home/XXX/.aspera/connect/bin/asperaconnect-nmh)
查找了网上的相关信息,说gcc的动态库太旧了,可使用命令strings /usr/lib64/libstdc++.so.6 | grep GLIBC
查看GLIBC的版本 ,确实我的机器中只到'GLIBCXX_3.4.19版本。网上也有相应的解决方案,比如解决报错‘version 'GLIBCXX_3.4.20‘ not found’和/lib64/libstdc++.so.6: version 'GLIBCXX_3.4.20' not found问题解决方法等,网友可以尝试。
因我的机器为公用机器,不能贸然修改GCC版本,故转为使用conda进行Aspera的安装。
>$ conda install -c hcc aspera-cli -y
安装的版本比自己下载源码安装的版本低,但无碍,先确定能用再说。
# 确认是否安装成功,有输出帮助文档则安装成功
$ ascp -h
# 查找密钥(使用时需要提供密钥)
$ which ascp #输出的内容可能不同,按照自己的安装路径来
/root/miniconda3/bin/ascp
# 将`bin`及`bin`后面的内容换成etc/asperaweb_id_dsa.openssh
# 可以使用ls 验证一下是否存在
$ ls /root/miniconda3/etc/asperaweb_id_dsa.openssh
/root/miniconda3/etc/asperaweb_id_dsa.openssh # 返回信息则说明存在。
至此,安装完成。
2. Aspera 使用手册
ascp是Aspera的命令。它的使用
ascp [参数] 目标文件 目标地址
常用的参数:
参数 | 说明 |
---|---|
-v | verbose mode 实时输出程序运行中间文件 |
-T | 取消加密,否则有时候数据下载不了 |
-i | 提供私钥文件地址,文件名为asperaweb_id_dsa.openssh,找不到用find查找一下 |
-l | 设置最大传输速度,一般200M到500M,如果不设置,反而速度会比较低,可能有个较低的默认值 |
-k | 断点续传,一般设置为值1 |
-Q | Enable fair transfer policy,一般加上,但不知什么用 |
-P | 提供SSH port,一般是33001 |
3.下载SRA和EBI的数据
先介绍下这两个数据集:
SRA数据库:Sequence Read Archive:隶属NCBI (National Center for Biotechnology Information),它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的。现在也有直接fastq格式的数据。
ENA数据库:European Nucleotide Archive:隶属EBI (European Bioinformatics Institute),功能同SRA,并且对数据做了注释,界面更友好,可直接下载fastq (.gz)文件。
之前Aspera是可以下载NCBI、EBI和DDBJ三大数据库的数据的。不过现在NCBI数据迁移到阿里云(AWS)和google云(GCP)了,原来的ftp链接失效了。DDBJ 好像用的不多,使用Aspera下载EBI最好用。
(1) NCBI SRA数据下载,不推荐使用Aspera
原来ncbi SRA在Aspera的用户名是anonftp
, 路径为ftp-private.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/...
,但目前已停服。
补充:目前NCBI还可以使用的链接:
sra:https://trace.ncbi.nlm.nih.gov/Traces/sra-reads-be/fastq?acc=SRR13450889
更改SRR号即可(统计至2022.11.11)。或者使用云服务器上的链接。
(2) ENA 数据下载
数据存放地址:fasp.sra.ebi.ac.uk
,ENA在Aspera的用户名为era-fasp
。
以一个例子说明基本用法:
$ ascp -l 200M -P 33001 -QT -k 2 -i /root/miniconda3/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR576/004/SRR5760814/SRR5760814.fastq.gz ./test.fq.gz
有个奇怪的现象,浏览器查看fasp.sra.ebi.ac.uk/vol1/fastq/SRR576/004/SRR5760814/SRR5760814.fastq.gz
链接是打不开的,但是可以使用上述命令可以下载数据。使用https://ftp.sra.ebi.ac.uk/vol1/fastq/SRR576/004/SRR5760814/SRR5760814.fastq.gz
可以浏览器,wget,curl下载。
https://blog.csdn.net/weixin_43745169/article/details/93311701