之前在twitter上看见一个老哥开发了一个网站 sra-explorer,大致意思就是能够解析你输入的SRA号,比如说GSEXXX,SRPXXX,SRRXXX等(就是文章最后面附上的数据地址),但只是收藏了一直没当回事,毕竟我一直用 prefetch
+ fasterq-dump
,而且我下别人的数据也不太多。但今天突然需要下载一些别人的数据,但我又懒得再去翻我的关于NCBI数据下载和解压缩的cheatsheet :),于是我就想起了这个网站。用了下发现特别香。
这个网站的基本组成就是这样的,你只需要输入SRA号,其就会自动解析对应的数据集,然后你只要勾选加入到购物栏,然后再换一批数据,再勾选,再加入。到你完全挑选完你的数据之后,点下右上方的购物栏,就可以转到另一个界面
这个界面就自动帮你列出了你的下载代码,我这里是用了现成的Bash script,然后在curl -L
的每行代码后面加了个 &
来并行下载所有的fq.gz文件。
至于这个速度,我感觉1G的数据差不多10分钟之内就搞定了。虽然这个看起来不是很快,但是这是直接得到fq.gz文件,非常的方便。而不是像prefetch
+ fasterq-dump
,你得先得到SRR文件,然后再用fasterq-dump来拆解。
顺便吐槽下,我永远记不住 prefetch和fasterq-dump 的命令。而且prefetch这货还会把文件下载到一个特定位置,哪怕你已经设置了下载路径。
当然,prefetch + fast(er)q-dump 只要你会配置,还是很方便的。但人类的本质不就是懒么……
顺便提下这个网站的原理,因为实际上,你除了用prefetch SRR下载数据之外,NCBI还允许你直接去 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ 这里面直接下载fastq文件,这个网站就是利用你输入的数据库ID,贴心地帮我们找到了对应的fq地址。
参考文章