如何下载sra数据,转化fastq进行分析

前言

本文分享如何从NCBI数据库下载我们需要的数据,进行我们自己的数据分析。该过程的思路相对清晰,主要需要完成以下三个步骤。

1. SRA ID 号查询

1.1. 我们需要的SRA数据被放在了NCBI的GEO数据库,所以我们要通过GEO 号进行查询。比如我拿到的号码:GSE155513
1.2. 登录到GEO数据库进行数据下载。可以通过搜索GEO进行登录,或者直接登录url:https://www.ncbi.nlm.nih.gov/geo/,然后在新页面搜索框输入我们的GEO号码进行搜索。
1.3. 打开的新页面,我们只需要关注sample 和 SRA 两个title就可以了:首先sample 给到我们该项目的样本列表,选择样本点击后进入样本详情页,点击SRA后可以找到SRA ID (SRRxxxx)。其次SRA title 则给出我们这个项目的sra链接,打开后同样是不同样本的链接,进行样本选择后,点击也可以获取到该样本的SRR号码。
1.4. 除此之外,我们可以在1.2打开的新页面中,点击SRA Run Selector,该入口给我们提供了所有样本的SRA ID列表。

2. sra-tools 下载

该软件是NCBI官方提供的SRA文件工具,是一个二进制软件,下载解压后可以直接使用,不需要安装。下载路径:https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit,注意,要选择自己的使用平台(linux或window等)进行下载。
下载完成后,解压

tar -axvf sratoolkit.3.0.2-centos_linux64.tar.gz

我们发现软件bin路径下收录了大量的可执行文件,我们用到的是 prefetch 工具。如果是多个样本,可以写成以下形式,投递到后台进行下载。

#### 命令投递形式
bash test.sh
####  test.sh 内容格式
/data/sratoolkit.3.0.2-centos_linux64/bin/prefetch  SRR12363113
/data/sratoolkit.3.0.2-centos_linux64/bin/prefetch  SRR12363114

3. sra到fastq格式转换

SRA文件下载完成后,同样用到 sra-tools 工具进行格式转换。用到的工具是 fastq-dump,收录在bin文件夹下。

/data/sratoolkit.3.0.2-centos_linux64/bin/fastq-dump --gzip --split-files SRR12363113

结束语

通过以上的操作,我们可以拿到了我们需要的fastq文件,下面就可以进行数据分析了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容