NCBI中会将测序等数据压缩成sra格式。本文介绍如何批量下载sra文件及转化为Fastq格式。
下载SRA文件sratoolkit
从NCBI官网下载sratoolkit选择合适的版本进行下载。
下载后解压,然后我们就可以用bin文件夹中的prefetch进行下载:
prefetch [options] <path/SRA file | path/kart file> [<path/file> ...]
prefetch [options] <SRA accession>
prefetch [options] --list <kart_file>
比如我想要下载一个IBD的口腔微生物数据:
path/prefetch SRR6185627
下载文件会被存储在~/ncbi/public/sra/
想要批量下载的话可以点击下载Accession List文件
输入命令:
path/prefetch --option-file SRR_ACC_List.txt
SRA格式转化
sra转化为fastq文件可以使用sratoolkit中的fastq-dump命令。
fastq-dump --split-3 filename
其中--split-3参数代表着如果是单端测序就生成一个 、.fastq文件,如果是双端测序就生成_1.fastq 和*_2.fastq 文件。
进入到sra文件中我们可以用下述代码进行批量的格式转化:
for i in *sra
do
echo $i
/path/sratoolkit.2.3.5-2-mac64/bin/fastq-dump --split-3 $i
done