之前下载SRA的数据,使用 prefetch -v SRA --max-size 100G 下载数据,经常会出现下到一半就断网的情况;后来尝试使用wget下载,但wget下载后的SRA数据,在用fastq-dump转化成fastq时,会出现错误(使用迅雷下载就不会出现这种问题)。后来搜集到一种方法,现记录下来:
Step1:首先下载aspera并安装
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar -xzvf aspera-connect-3.7.4.147727-linux-64.tar.gz
sh aspera-connect-3.7.4.147727-linux-64.sh
查看是否安装成功 cd 到家目录,然后ls -a之后会有.aspera目录;.aspera/connect/bin/ascp -h 测试是否安装成功;
Step2:将ascp 添加到环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
Step3:使用prefetch下载数据
prefetch -v ERR1955423 --max-size 100G
这样 perfetch就会 默认aspera下载
sra数据会下载到家目录下的ncbi/public/sra中
Step4:将SRA转化为fastq(pair-end)
fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@$ac-$si/$ri' ERR1955398.sra
备忘录-----SRA在NCBI上的存放路径
以下是NCBI 存放SRR5483089的路径
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR548/SRR5483090/
可见ftp构成:
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/+SRR+登陆号前三位数字(548)+/SRR+完整登陆号(5483089)
进入即可看到FTP文件,可以直接下载或者通过复制链接用wget 下载
如果按SRP下载文件的话,构成是
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/+SRP+SRP前三位数字 (105) +/SRP+SRP的完整登陆号(105315)
参考网址:
https://www.cnblogs.com/ywliao/p/7356528.html
https://www.jianshu.com/p/19ae29e54c59