导读
平时看文章,特别是组学文章,作者在文末都会提供其研究材料中高通量测序数据的下载链接,如果平时想练手的话,下载这些数据是最好不过了,下面我就总结下如何从GEO和SRA中下载作者提供的数据。
GEO或者SRA编号获取
1.以文章 “AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors为例
- 其文末methods部分提供了GSE号:GSE81916,如下图
2.根据提供的这个编号,首先打开GEO网页,链接:https://www.ncbi.nlm.nih.gov/geo/
GEO包括三个层次:GSM(样本编号),GLP(检测平台),GSE(基因数据结果)
下载方法1:
- 直接通过GSE号进行检索,如上图,在搜索框中输入:
GSE81916
,得到如下图所示:
GSE一般是测序后的原始数据,下载后解压即可。
tar GSE81916_RAW.tar #先用tar解压,得到以.gz结尾的文件
gunzip *gz ##再用gunzip解压所有文件
下载方法2:
(可以通过ByStudy和ByRun两种方式,不过好像ncbi的sra目录下现在只有ByRun这个文件夹了)jobs
- 如上图,检索后,出现了SRA数据库下载的链接,点击(ftp)进入以下界面
- 共15个文件,即15个samples。此时即可对其进行下载我们发现其数据编号是有规律的,SRR紧接的四位数字是一样的,只有后三位等差数列,因此可以写个小程序来实现自动下载。
for ((i=948;i<=962;i++)) ; do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR3589$i/SRR3589$i.sra;done
备注:上面的方法不能用了,现在用下面这个心的下载方式
for ((i=948;i<=962;i++));do wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR358${i}/SRR358${i}.sra --no-check-certificate;done
- 下载之后,由于NCBI将数据压缩成特定的.sra格式,因此在后续的分析中我们要先将其转为fastq格式。这里用到的是
sratool
软件中的fastq-dump
函数
ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump –split-3 $id;done
- 接下来可以用fastqc看下数据质量,代码如下:
ls *fastq |xargs ~/biosoft/fastqc/FastQC/fastqc -t 10
3.如果是文章中提供的是SRP编号,那么直接用ftp的网址:ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP根据编号找到文章中特定的SRP号码,一级级往下。
- 举个例子:如这篇文章《Gut Microbiome-Based Metagenomic Signature for Non-invasive Detection of Advanced Fibrosis in Human Nonalcoholic Fatty Liver Disease》
- 打开后面提供的链接,如下图
然后将获得的这个SRP100446编号去获得底部的
SRR编号
[https://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/)该链接里一级级往下找对应的数字。找到后用上面提到的脚本下载,然后解压成fastq格式,即大功告成。
结语
以上就是我们平时在阅读文献中可能遇到的两种最主要的数据下载途径,还等什么,赶紧操练起来