一、数据库简单介绍
1、SRA数据库:
NCBI的SRA数据库是美国国立卫生研究院(NIH)存储高通量测序数据的主要数据库,也是高通量测序数据存储的代表。SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。 根据SRA数据产生的特点,将SRA数据分为四类:① Studies-- 研究课题;② Experiments-- 实验设计;③ Runs-- 测序结果集;④ Samples-- 样品信息。SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs. Studies是就实验目标而言的,一个study 可能包含多个Experiment。Experiments包含了Sample、DNA source、测序平台、数据处理等信息。一个Experiment可能包含一个或多个runs。Runs 表示测序仪运行所产生的reads。SRA数据库用不同的前缀加以区分:① ERP或SRP表示Studies;②SRS 表示 Samples;③SRX 表示 Experiments;④SRR 表示 Runs; SRA 短序列数据库:由 NCBI 负责维护;ENA 欧洲核酸数据库:由 EBI 负 责维护。
SRA数据库FTP服务器: ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/
(参考 NCBI SRA数据库使用详解)
2、dbSNP数据库:
单核苷酸多态性数据库dbSNP(dbSNP, The Single Nucleotide Polymorphism Database)是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,收录了SNP、短插入缺失多态性、微卫星标记和短重复序列等数据,以及其来源、检测和验证方法、基因型信息、上下游序、人群频率等信息。dbSNP接受明显中性的多态性,对应于已知表型的多态性和无变异的区域。它于1998年9月创建,用于补充NCBI收集的公众可获得的核酸和蛋白质序列GenBank。从构建131(2010年2月开始)开始,dbSNP已经收集了超过1.84亿份提交文件,代表了55种生物的超过6400万种不同变种,包括智人,小家鼠,水稻和许多其他物种。 NCBI将在2017年逐步停止对dbSNP和dbVar中的所有非人类生物的支持。
网址:https://www.ncbi.nlm.nih.gov/SNP/
dbSNP数据下载地址:ftp://ftp.ncbi.nih.gov/snp/
(参考dbSNP数据库 以及 生信人必学ftp站点之 dbsnp)
3、1000genomes数据库:
千人基因组计划的数据库,如何通过官网做的data portal来下载数据可参考:https://www.genome.gov/pages/research/der/ichg-1000genomestutorial/how_to_access_the_data.pdf
在千人基因组计划的ftp主站点里面可以下载所有数据:
ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/
更多的数据库可见:生物信息学相关网站
二、数据下载软件
以SRA数据库数据为例
1、数据下载软件Aspera :
Aspera 软件以最快速度传输全球数据,不 受文件大小、传输距离或网络条件的影响。 具有 fasp™ 传输专利技术,是一项突破性 传输协议,充分利用现有的 WAN 基础设 施和通用硬件,传输速度比 FTP 和 HTTP 快达数百倍。 支持在云平台上或公共、私人或混合型云 平台上进行部署,涵盖广泛的服务器、桌 面和移动操作系统,具有端对端安全性、 100% 可靠性以及卓越的带宽控制能力。
Aspera connect在Ubuntu的下载和安装 :
wget https://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz
tar zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz
sh aspera-connect-3.6.2.117442-linux-64.sh
echo "alias ascp=/home/noodles/.aspera/connect/bin/ascp" >> ~/.bashrc
source ~/.bashrc
ascp -h
~/.bashrc: 该文件包含专用于你的bash shell的bash信息,当登录时以及每次打开新的shell时,该该文件被读取。将 ascp 添加至此处。参考:.bash_profile和.bashrc的什么区别及启动过程 。每次修改.bashrc后,使用source ~/.bashrc 使修改立即生效。
根据数据的accession no. 逐步定位到sra文件,并得到ftp下载地址:
如SRR6208854的ftp下载地址为:ftp://ftp.ncbi.nlm.nih.gov/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra
则将其改为:
anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra
然后就可以在Ubuntu上使用aspera下载SRA文件,首先我们了解以下部分aspera参数:
USAGE:ascp [参数] 目标文件 目的地址
-T 不进行加密。若不添加此参数,可能会下载不了。
-i string 输入私钥,安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥, 使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。
-l string 设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。
-k 1 支持断点续传
--host=string ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为fasp.sra.ebi.ac.uk。
--user=string 用户名,NCBI的为anonftp,EBI的为era-fasp。
--mode=string 选择模式,上传为 send,下载为 recv。
--file-list 批量下载SRA文件的路径
因此可通过下述命令来下载SRR6208854.sra文件:
ascp -T -i /home/noodles/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra ./
(若ascp未添加环境变量,则使用 ~/.aspera/connect/bin/ascp )
我们可以发现,NCBI-SRA数据库的sra文件前面的地址都是一样的/sra/sra-instant/reads/ByRun/sra/SRR/...,可以根据需要下载的sra文件来编写脚本进行批量下载sra文件,也可过把sra文件的id写到一个文档,使用ascp批量下载文档中所有的sra文件,举例如下:
首先vi创建一个文本文件,如SRR_Download_List,内容为:
/sra/sra-instant/reads/ByRun/sra/SRR/SRR623/SRR6232298/SRR6232298.sra
/sra/sra-instant/reads/ByRun/sra/SRR/SRR623/SRR6232299/SRR6232299.sra
然后运行:
~/.aspera/connect/bin/ascp -T -i /home/noodles/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list ./sra_list.txt ./
即可下载。(上述末尾的./表示下载到当前目录)
2、SRA数据下载工具 SRA toolkit
SRA toolkit由NCBI开发,用于下载处理SRA文件,含有各种数据格式转换的工具包,其中fastq-dump和prefetch经常使用:
fastq-dump:用于将SRA数据fastq格式
prefetch:允许使用命令行来下载SRA,dbGap和ADSP数据
SRA的安装方法(参考:SRAtoolkit安装步骤):
Step 1:下载SRAtoolkit软件包这里用wget的-P参数,设置下载文件保存的路径是~/Biosofts/sratoolkit
wget -P ~/Biosofts/sratoolkit https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz
Step 2:解压压缩包用tar命令的-C参数,设置解压文件保存路径在~/Biosofts/sratoolkit
tar zvxf ~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64.tar.gz -C ~/Biosofts/sratoolkit
Step 3:测试安装是否成功
~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64/bin/fastq-dump -h
Step 4:将sratoolkit安装文件路径加入环境变量
echo 'export PATH=~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
Step 5:再次测试sratoolkit安装情况
fastq-dump
prefetch
当SRAtoolkit下载安装好后,即可使用prefetch来下载sra文件,以及使用fastq-dump将SRA数据fastq格式:
prefetch accession no. 即可下载,如下载 SRR6232298,则:
prefetch SRR6232298
软件自动建立~/ncbi/public/sra文件夹,sra文件