SRA下载数据及转化为fastq方法

可参考https://www.jianshu.com/p/0694fcb77157的四种下载方法，在此仅以wget下载和SRA Toolkit转化成fastq为例

1. wegt下载

在“SRA”数据库中搜索SRR后，点击下面表格中的SRR号如“SRR1482463”，会跳转到页面如下：

image

切换到‘Data access’界面，就找到数据链接了，如下截图：

image

找到链接就可以用wget来下载数据了：


wget -c -t 0 -O path/SRR1482463.sra https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1482463/SRR1482463.2
-c-t 配合使用可以防止下载数据的过程中链接中断的问题，-O则可以指定下载路径和文件名。

**使用wget -c断点续传 **

使用断点续传要求服务器支持断点续传。-t参数表示重试次数，例如需要重试100次，那么就写-t 100，如果设成-t 0，那么表示无穷次重试，直到连接成功。

2. SRA下载的数据转化为fastq格式-SRA Toolkit

注：下载的数据类型为.sra或.1都可使用相同命令转化

2.1 SRA Toolkit安装

1）通过NCBI 官网安装https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

2）服务器上解压缩后，进入/sratoolkit.2.11.3-centos_linux64/bin进行配置

命令为./vdb-config --interactive

安装成功

2.2 运行

fasterq-dump支持多线程，注：新安装的SRA Toolkit不包含fastq-dump

fasterq-dump --split-3 --gzip SRR11037233.1 -e 10 -o SRR11037233

如果数据是pair-end的格式最好加参数--split-3，这样对于一方有而另一方没有的reads就会单独放在一个文件里。

-e 为线程命令

注：可加可不加参数：

默认情况下输出的文件的ID都是SRR开头,但其实原始数据名字不是这样子,比如说@ST-E00600:143:H3LJWALXX:1:1101:5746:1016 2:N:0:CCTCCTGA,@HWI-ST620:248:HB11HADXX:2:1101:1241:2082#0/1这种. 如果你想看到那种格式,而不是SRR,你需要怎么做呢?

可以通过如下三个选项进行修改

F|--origfmt: 仅保留数据名字
--defline-seq <fmt>: 定义readsID的显示方式
--defline-qual <fmt>: 定义质量的显示方式

其中fmt按照如下要求定义

image

虽然看起来有点意思,但是对最后的分析其实没啥帮助.

参考：

https://www.jianshu.com/p/0694fcb77157

https://github.com/ncbi/sra-tools/issues/461

https://blog.csdn.net/weixin_43840576/article/details/108572660

https://www.cnblogs.com/semonxv/p/3816366.html

https://www.jianshu.com/p/a8d70b66794c

SRA下载数据及转化为fastq方法

推荐阅读更多精彩内容