登录注册写文章

一个不一样的NCBI下载方法

城管大队哈队长

一个不一样的NCBI下载方法

之前在twitter上看见一个老哥开发了一个网站 sra-explorer，大致意思就是能够解析你输入的SRA号，比如说GSEXXX，SRPXXX，SRRXXX等（就是文章最后面附上的数据地址），但只是收藏了一直没当回事，毕竟我一直用 prefetch + fasterq-dump ，而且我下别人的数据也不太多。但今天突然需要下载一些别人的数据，但我又懒得再去翻我的关于NCBI数据下载和解压缩的cheatsheet ：），于是我就想起了这个网站。用了下发现特别香。

这个网站的基本组成就是这样的，你只需要输入SRA号，其就会自动解析对应的数据集，然后你只要勾选加入到购物栏，然后再换一批数据，再勾选，再加入。到你完全挑选完你的数据之后，点下右上方的购物栏，就可以转到另一个界面

Fig.1

这个界面就自动帮你列出了你的下载代码，我这里是用了现成的Bash script，然后在curl -L的每行代码后面加了个 & 来并行下载所有的fq.gz文件。

Fig.2

至于这个速度，我感觉1G的数据差不多10分钟之内就搞定了。虽然这个看起来不是很快，但是这是直接得到fq.gz文件，非常的方便。而不是像prefetch + fasterq-dump ，你得先得到SRR文件，然后再用fasterq-dump来拆解。

顺便吐槽下，我永远记不住 prefetch和fasterq-dump 的命令。而且prefetch这货还会把文件下载到一个特定位置，哪怕你已经设置了下载路径。

当然，prefetch + fast(er)q-dump 只要你会配置，还是很方便的。但人类的本质不就是懒么……

顺便提下这个网站的原理，因为实际上，你除了用prefetch SRR下载数据之外，NCBI还允许你直接去 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ 这里面直接下载fastq文件，这个网站就是利用你输入的数据库ID，贴心地帮我们找到了对应的fq地址。

参考文章

最后编辑于：2020.03.05 13:52:27

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

从NCBI-SRA和EBI-ENA数据库下载数据
NCBI-SRA和EBI-ENA数据库 SRA数据库: Sequence Read Archive：隶属NCBI ...
dulunar阅读 33,041评论 6赞 74
测序数据的获取
一、数据库简单介绍 1、SRA数据库： NCBI的SRA数据库是美国国立卫生研究院（NIH）存储高通量测序数据的主...
BioLearner阅读 10,018评论 0赞 9
软件使用者系列（一）：sra与fastq数据下载
前言测序的生信数据往往体量庞大，动辄几十个G不在话下，常规的下载方式往往会遇到下载速度慢或者下载不成功的问题。但...
Jihong_Tang阅读 14,909评论 2赞 22
ascp咋啦？如何从NCBI上下载sra数据？
前言今天（3.12日），想在NCBI上下载lncRNA数据，突然发现软件Aspera的ascp（报错：ascp:...
溪溪溪溪溪川阅读 20,740评论 12赞 19
原始数据下载的几种方法
How to download All Sra data At Once SRA: Sequence Read A...
莫讠阅读 12,836评论 0赞 12

11赞12赞

赞赏

手机看全文