下载SRR文件的aspera和prefetch方法

参考用list批量下载SRR数据的方法

https://www.jianshu.com/p/f16ed4c79739

1.aspera
安装aspera后

ebi可以直接下载fastq文件
https://www.ebi.ac.uk/

搜索SRR编号,这个在GEO数据库里就可以找到


之后是复制fastq ftp的链接地址。
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR836/000/SRR8366760/SRR8366760_1.fastq.gz

之后将其中要用的部分用excel处理,批量生成要下载的数据代码

ascp -v -k 1 -QT -l 300m -P 33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR949/SRR949627/SRR949627_1.fastq.gz ./

讲道理其实可以了,但是我出现了failed to open TCP connection for SSH的报错,可能是服务器的问题,之前还好好的。

SGE提交任务即可

2.prefetch
我要下载一个SRA数据,SRR949627,直接输入SRA ID即可。

prefetch SRR949627

1、因为安装了Aspera,prefetch优先用ascp协议下载
Downloading via fasp...
SRA文件默认下载在~/ncbi/public/sra 目录下,也不用调,但是有些早期的SRR似乎只能用https下载

2、默认下载的是sra格式数据,使用fastq-dump将sra转换为fastq。
参考下面两篇文章
https://www.plob.org/article/14565.html
https://cloud.tencent.com/developer/article/1493545

下面使用fasterq解压sra文件

fasterq-dump -e 20 --split-3 -O /data/yujia/jzm/aml/data/RNAseq SRR******.sra
#-e 20个线程,--split-3三个文件,用于双端测序,-O是输出目录,-p可以单个进程进度显示,fasterq之前加time可查看花了多久完成任务

prefetch命令下载多个SRA文件:

https://www.jianshu.com/p/de7ccc55ccb6

1. 从NCBI网站下载SRA accession no.的列表文件
比如,这是一个Bioproject的相关信息页面:
https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=DRP002849
在页面下面列出了所有相关SRA文件信息

image

点accession list,将下载得到的文本文件上传到服务器/home/Seqs目录

2. 从NCBI网站下载SRA accession no.的列表文件
运行命令:

prefetch --option-file Seqs/SRR_lists.txt

SRR_lists.txt就是刚刚从网站下载的accession list;运行结果:

image

作者:晓明_再出发
链接:https://www.jianshu.com/p/de7ccc55ccb6
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

找到一个prefetch的好代码
参考https://www.biostars.org/p/325010/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容