参考用list批量下载SRR数据的方法
https://www.jianshu.com/p/f16ed4c79739
1.aspera
安装aspera后
ebi可以直接下载fastq文件
https://www.ebi.ac.uk/
搜索SRR编号,这个在GEO数据库里就可以找到
之后是复制fastq ftp的链接地址。
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR836/000/SRR8366760/SRR8366760_1.fastq.gz
之后将其中要用的部分用excel处理,批量生成要下载的数据代码
ascp -v -k 1 -QT -l 300m -P 33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR949/SRR949627/SRR949627_1.fastq.gz ./
讲道理其实可以了,但是我出现了failed to open TCP connection for SSH的报错,可能是服务器的问题,之前还好好的。
SGE提交任务即可
2.prefetch
我要下载一个SRA数据,SRR949627,直接输入SRA ID即可。
prefetch SRR949627
1、因为安装了Aspera,prefetch优先用ascp协议下载
Downloading via fasp...
SRA文件默认下载在~/ncbi/public/sra 目录下,也不用调,但是有些早期的SRR似乎只能用https下载
2、默认下载的是sra格式数据,使用fastq-dump将sra转换为fastq。
参考下面两篇文章
https://www.plob.org/article/14565.html
https://cloud.tencent.com/developer/article/1493545
下面使用fasterq解压sra文件
fasterq-dump -e 20 --split-3 -O /data/yujia/jzm/aml/data/RNAseq SRR******.sra
#-e 20个线程,--split-3三个文件,用于双端测序,-O是输出目录,-p可以单个进程进度显示,fasterq之前加time可查看花了多久完成任务
prefetch命令下载多个SRA文件:
https://www.jianshu.com/p/de7ccc55ccb6
1. 从NCBI网站下载SRA accession no.的列表文件
比如,这是一个Bioproject的相关信息页面:
https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=DRP002849
在页面下面列出了所有相关SRA文件信息
点accession list,将下载得到的文本文件上传到服务器/home/Seqs目录
2. 从NCBI网站下载SRA accession no.的列表文件
运行命令:
prefetch --option-file Seqs/SRR_lists.txt
SRR_lists.txt就是刚刚从网站下载的accession list;运行结果:
作者:晓明_再出发
链接:https://www.jianshu.com/p/de7ccc55ccb6
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
找到一个prefetch的好代码
参考https://www.biostars.org/p/325010/