当你做meta分析或者需要一些文献提供的开放原始数据时,大量的数据下载和分析是必不可少的步骤,大量数据的下载和处理十分让人头疼,此篇文章主要介绍如何从NCBI下载原始数据,在尝试并测试了多种不同的下载方式后,将不同下载方式总结如下:
首先进行数据搜索(输入文章中提供的BioProject编号或者BioSample编号)
可以看到搜索到了目标数据:其中Genomes 中可以看到该Project有172个SRA数据
点击该172个SRA数据:可以看到这些数据详细信息
继续点击Send results to Run selector,进入SRA Run Selector,在此界面可以看到看到这些数据样本类型及数据大小等,点击Metadata即可下载这些样本的相关表型信息,点击Accession List可获得这些样本的SRR编号,用于后续的数据下载。
-
直接从网页下载
如果你需求的样本只有一个并且该样本的原始文件大小在5G之内,直接在SRR Run Selector中点击该样本即可,即可进入该样本下载界面:直接点击(FASTA或者FASTQ)下载即可,不用再继续大费周章使用相关下载工具。如果该样本原始数据大小在5G以上,那么就需要使用相关下载工具了,请继续往下看。
-
使用SRA Toolkit进行下载
安装sra-tools(https://github.com/ncbi/sra-tools)和Aspera(https://www.ibm.com/aspera/connect/):conda install bioconda::sra-tools conda install -c hcc aspera-cli
也可使用其他方式进行安装,详见软件包链接。
SRA Toolkit中主要有以下两个工具:
a). 直接使用fasterq-dump 下载fastq
fasterq-dump SRR5626054 --threads 10 --progress --skip-technical --split-3 --bufsize 20M --curcache 50M --mem 200M --details
其中参数--split-3 为判断R1/R2 fastq中Read ID是否一一对应,不对应的reads会单独输出。
b). 先使用prefetch下载sra文件,然后使用fasterq-dump将sra转换为fastq
prefetch SRR5626054
但是这这两种方法下载速度都很慢,只适合少量的且数据量较小的样本。
IBM提供的IBM Aspera Connect是一个相当快的下载工具,prefetch整合了该工具,
下载命令如下:
prefetch -a "/path/anaconda3/bin/ascp|/path/anaconda3/etc/asperaweb_id_dsa.openssh" -t fasp SRR5626054
参数-a指向ascp执行文件和密钥文件asperaweb_id_dsa.openssh
但是下载的时候有报错:
prefetch.3.0.10 err: file not found while copying file - cannot download 'SRR5626054' using requested transport
查了一些资料有的说是prefetch不支持ascp了,但是官网还有相关文档。另外测试了不同的软件包版本,也不行。。。哪位大神知道什么原因,望不吝赐教。
既然操作简单的用不了,只能单独使用ascp,ascp单独使用其实并不麻烦。。。
-
单独使用Ascp(就是上面的Aspera Connect):相比SRA toolkit中的prefetch可以直接使用SRR编号进行下载,ascp只是加了一步生成fastq路径的过程,然后批量下载,下载中断了也不用怕,重新运行即可,ascp支持断点续传。下载速度杠杠的,几百M/s。
ascp -v -QT -l 500m -m 100m -P33001 -k1 -i /path/anaconda3/etc/asperaweb_id_dsa.openssh --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list fastqid.txt ./
fastqid.txt文件中内容如下:
vol1/fastq/SRR811/006/SRR8117406/SRR8117406_1.fastq.gz
vol1/fastq/SRR811/006/SRR8117406/SRR8117406_2.fastq.gz
路径中SRR811为SRR8117406前6位,006为SRR8117406最后一位,前面加两个0(也有可能是后两位),参数--host/--user都为下载NCBI数据固定参数,不需要修改,其他参数根据具体情况可以进行修改。
还好有ASCP,要不大量的数据得下载到何年马月。。