前言
本文分享如何从NCBI数据库下载我们需要的数据,进行我们自己的数据分析。该过程的思路相对清晰,主要需要完成以下三个步骤。
1. SRA ID 号查询
1.1. 我们需要的SRA数据被放在了NCBI的GEO数据库,所以我们要通过GEO 号进行查询。比如我拿到的号码:GSE155513
1.2. 登录到GEO数据库进行数据下载。可以通过搜索GEO进行登录,或者直接登录url:https://www.ncbi.nlm.nih.gov/geo/,然后在新页面搜索框输入我们的GEO号码进行搜索。
1.3. 打开的新页面,我们只需要关注sample 和 SRA 两个title就可以了:首先sample 给到我们该项目的样本列表,选择样本点击后进入样本详情页,点击SRA后可以找到SRA ID (SRRxxxx)。其次SRA title 则给出我们这个项目的sra链接,打开后同样是不同样本的链接,进行样本选择后,点击也可以获取到该样本的SRR号码。
1.4. 除此之外,我们可以在1.2打开的新页面中,点击SRA Run Selector,该入口给我们提供了所有样本的SRA ID列表。
2. sra-tools 下载
该软件是NCBI官方提供的SRA文件工具,是一个二进制软件,下载解压后可以直接使用,不需要安装。下载路径:https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit,注意,要选择自己的使用平台(linux或window等)进行下载。
下载完成后,解压
tar -axvf sratoolkit.3.0.2-centos_linux64.tar.gz
我们发现软件bin路径下收录了大量的可执行文件,我们用到的是 prefetch 工具。如果是多个样本,可以写成以下形式,投递到后台进行下载。
#### 命令投递形式
bash test.sh
#### test.sh 内容格式
/data/sratoolkit.3.0.2-centos_linux64/bin/prefetch SRR12363113
/data/sratoolkit.3.0.2-centos_linux64/bin/prefetch SRR12363114
3. sra到fastq格式转换
SRA文件下载完成后,同样用到 sra-tools 工具进行格式转换。用到的工具是 fastq-dump,收录在bin文件夹下。
/data/sratoolkit.3.0.2-centos_linux64/bin/fastq-dump --gzip --split-files SRR12363113
结束语
通过以上的操作,我们可以拿到了我们需要的fastq文件,下面就可以进行数据分析了。