可参考https://www.jianshu.com/p/0694fcb77157的四种下载方法,在此仅以wget下载和SRA Toolkit转化成fastq为例
1. wegt下载
在“SRA”数据库中搜索SRR后,点击下面表格中的SRR号如“SRR1482463”,会跳转到页面如下:
切换到‘Data access’界面,就找到数据链接了,如下截图:
找到链接就可以用wget来下载数据了:
wget -c -t 0 -O path/SRR1482463.sra https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1482463/SRR1482463.2
-c-t 配合使用可以防止下载数据的过程中链接中断的问题,-O则可以指定下载路径和文件名。
**使用wget -c断点续传 **
使用断点续传要求服务器支持断点续传。-t参数表示重试次数,例如需要重试100次,那么就写-t 100,如果设成-t 0,那么表示无穷次重试,直到连接成功。
2. SRA下载的数据转化为fastq格式-SRA Toolkit
注:下载的数据类型为.sra或.1都可使用相同命令转化
2.1 SRA Toolkit安装
1)通过NCBI 官网安装https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
2)服务器上解压缩后,进入/sratoolkit.2.11.3-centos_linux64/bin进行配置
命令为./vdb-config --interactive
安装成功
2.2 运行
fasterq-dump支持多线程,注:新安装的SRA Toolkit不包含fastq-dump
fasterq-dump --split-3 --gzip SRR11037233.1 -e 10 -o SRR11037233
如果数据是pair-end的格式最好加参数--split-3,这样对于一方有而另一方没有的reads就会单独放在一个文件里。
-e 为线程命令
注:可加可不加参数:
默认情况下输出的文件的ID都是SRR开头,但其实原始数据名字不是这样子,比如说@ST-E00600:143:H3LJWALXX:1:1101:5746:1016 2:N:0:CCTCCTGA
,@HWI-ST620:248:HB11HADXX:2:1101:1241:2082#0/1
这种. 如果你想看到那种格式,而不是SRR,你需要怎么做呢?
可以通过如下三个选项进行修改
-
F|--origfmt
: 仅保留数据名字 -
--defline-seq <fmt>
: 定义readsID的显示方式 -
--defline-qual <fmt>
: 定义质量的显示方式
其中fmt按照如下要求定义
虽然看起来有点意思,但是对最后的分析其实没啥帮助.
参考:
https://www.jianshu.com/p/0694fcb77157
https://github.com/ncbi/sra-tools/issues/461
https://blog.csdn.net/weixin_43840576/article/details/108572660