参考网址:https://github.com/ncbi/sra-tools/wiki/08.-prefetch-and-fasterq-dump
(Sequence Read Archive, SRA)数据可通过多个云提供商和NCBI服务器获得,是最大的高通量测序数据公开可用存储库。该档案接受来自生命的所有分支以及宏基因组和环境调查的数据。SRA存储原始测序数据和比对信息,以提高可重复性,并通过数据分析促进新发现。
prefetch + fasterq-dump的组合是从sra -access中提取fastq -文件的最快方法。prefetch工具下载所有必要的文件到您的计算机。如果下载不成功,可以多次调用prefetch工具。它不会每次都从头开始;相反,它将从上次调用失败的地方开始。下载之后,您可以选择使用vdb-validate工具测试下载的数据。下载成功后,不需要网络连接。您可以将通过prefetch创建的文件夹移动到不同的位置,以在其他地方执行到fastq格式的转换(例如到没有互联网访问的计算集群)。
检查“prefetch”工具的最大大小限制
prefetch工具的默认最大下载大小为20G。如果请求的增量大于20G,则需要增加该限制。无论请求的访问有多大,您都可以指定一个极高的限制。你也可以使用vdb-dump-tool和--info选项查询access -size。例如,vdb-dump SRR000001--info告诉您这个登录有多大(以及其他信息)。接入SRR000001有932,308,473字节,低于默认限制,因此不需要进一步操作。接入SRR1951777有410,112,373,995字节。要下载此条目,您必须解除该大小以上的限制:
prefetch SRR1951777 --max-size 420000000000
从SRA 文件中提取fastq文件
在执行提取之前,您应该快速估计所需的硬盘空间。最终的fastq文件大小大约是sra文件的7倍。在转换过程中,fasterq-dump工具需要大约1.5倍于最终fastq文件量的临时空间(临时空间)。总的来说,您在转换过程中需要的空间大约是sra大小的17倍。如果超过限制,'fasterq-dump'-工具将失败,并将显示一条消息。
fasterq-dump SRR000001
运行fasterq-dump最简单的方法
运行该命令行的前提是,您之前已经将要下载的序列prefetched到当前工作目录。如果目录SRR000001不存在(即未进行prefetch获得文件),fasterq-dump工具将尝试通过访问网络下载该数据。这将慢得多,并可能最终由于网络超时而失败。
需要注意的事项
fasterq-dump tool默认执行split-3操作。在命令行选项方面,fasterq-dump-tool与以前的fastq-dump-tool并不相同。fastq-dump和fasterq-dump的对比如下:
split-3
fastq-dump SRR000001 --split-3 --skip-technical
fasterq-dump SRR000001
split-spot
fastq-dump SRR000001 --split-spot --skip-technical
fasterq-dump SRR000001 --split-spot
split-files
fastq-dump SRR000001 --split-files --skip-technical
fasterq-dump SRR000001 --split-files
concatenated
fastq-dump SRR000001
fasterq-dump SRR000001 --concatenate-reads --include-technical