SRA下载数据及转化为fastq方法

可参考https://www.jianshu.com/p/0694fcb77157的四种下载方法,在此仅以wget下载和SRA Toolkit转化成fastq为例

1. wegt下载

在“SRA”数据库中搜索SRR后,点击下面表格中的SRR号如“SRR1482463”,会跳转到页面如下:

image

切换到‘Data access’界面,就找到数据链接了,如下截图:

image

找到链接就可以用wget来下载数据了:


wget -c -t 0 -O path/SRR1482463.sra https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1482463/SRR1482463.2
-c-t 配合使用可以防止下载数据的过程中链接中断的问题,-O则可以指定下载路径和文件名。

**使用wget -c断点续传 **

使用断点续传要求服务器支持断点续传。-t参数表示重试次数,例如需要重试100次,那么就写-t 100,如果设成-t 0,那么表示无穷次重试,直到连接成功。

2. SRA下载的数据转化为fastq格式-SRA Toolkit

注:下载的数据类型为.sra或.1都可使用相同命令转化

2.1 SRA Toolkit安装

1)通过NCBI 官网安装https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

2)服务器上解压缩后,进入/sratoolkit.2.11.3-centos_linux64/bin进行配置

命令为./vdb-config --interactive

安装成功

2.2 运行

fasterq-dump支持多线程,注:新安装的SRA Toolkit不包含fastq-dump

fasterq-dump --split-3 --gzip SRR11037233.1 -e 10 -o SRR11037233

如果数据是pair-end的格式最好加参数--split-3,这样对于一方有而另一方没有的reads就会单独放在一个文件里。

-e 为线程命令

注:可加可不加参数:

默认情况下输出的文件的ID都是SRR开头,但其实原始数据名字不是这样子,比如说@ST-E00600:143:H3LJWALXX:1:1101:5746:1016 2:N:0:CCTCCTGA,@HWI-ST620:248:HB11HADXX:2:1101:1241:2082#0/1这种. 如果你想看到那种格式,而不是SRR,你需要怎么做呢?

可以通过如下三个选项进行修改

  • F|--origfmt: 仅保留数据名字
  • --defline-seq <fmt>: 定义readsID的显示方式
  • --defline-qual <fmt>: 定义质量的显示方式

其中fmt按照如下要求定义

image

虽然看起来有点意思,但是对最后的分析其实没啥帮助.

参考:

https://www.jianshu.com/p/0694fcb77157

https://github.com/ncbi/sra-tools/issues/461

https://blog.csdn.net/weixin_43840576/article/details/108572660

https://www.cnblogs.com/semonxv/p/3816366.html

https://www.jianshu.com/p/a8d70b66794c

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容