测序数据的获取

一、数据库简单介绍

1、SRA数据库:

NCBI的SRA数据库是美国国立卫生研究院(NIH)存储高通量测序数据的主要数据库,也是高通量测序数据存储的代表。SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。 根据SRA数据产生的特点,将SRA数据分为四类:① Studies-- 研究课题;② Experiments-- 实验设计;③ Runs-- 测序结果集;④ Samples-- 样品信息。SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs.  Studies是就实验目标而言的,一个study 可能包含多个Experiment。Experiments包含了Sample、DNA source、测序平台、数据处理等信息。一个Experiment可能包含一个或多个runs。Runs 表示测序仪运行所产生的reads。SRA数据库用不同的前缀加以区分:① ERP或SRP表示Studies;②SRS 表示 Samples;③SRX 表示 Experiments;④SRR 表示 Runs; SRA 短序列数据库:由 NCBI 负责维护;ENA 欧洲核酸数据库:由 EBI 负 责维护。

SRA数据库FTP服务器: ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/

(参考 NCBI SRA数据库使用详解

2、dbSNP数据库:

单核苷酸多态性数据库dbSNP(dbSNP, The Single Nucleotide Polymorphism Database)是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,收录了SNP、短插入缺失多态性、微卫星标记和短重复序列等数据,以及其来源、检测和验证方法、基因型信息、上下游序、人群频率等信息。dbSNP接受明显中性的多态性,对应于已知表型的多态性和无变异的区域。它于1998年9月创建,用于补充NCBI收集的公众可获得的核酸和蛋白质序列GenBank。从构建131(2010年2月开始)开始,dbSNP已经收集了超过1.84亿份提交文件,代表了55种生物的超过6400万种不同变种,包括智人,小家鼠,水稻和许多其他物种。 NCBI将在2017年逐步停止对dbSNP和dbVar中的所有非人类生物的支持。

网址:https://www.ncbi.nlm.nih.gov/SNP/

dbSNP数据下载地址:ftp://ftp.ncbi.nih.gov/snp/

(参考dbSNP数据库 以及 生信人必学ftp站点之 dbsnp

3、1000genomes数据库:

千人基因组计划的数据库,如何通过官网做的data portal来下载数据可参考:https://www.genome.gov/pages/research/der/ichg-1000genomestutorial/how_to_access_the_data.pdf

在千人基因组计划的ftp主站点里面可以下载所有数据:

ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

(参考:生信人必学ftp站点之1000genomes

更多的数据库可见:生物信息学相关网站

二、数据下载软件

以SRA数据库数据为例

1、数据下载软件Aspera :

Aspera 软件以最快速度传输全球数据,不 受文件大小、传输距离或网络条件的影响。 具有 fasp™ 传输专利技术,是一项突破性 传输协议,充分利用现有的 WAN 基础设 施和通用硬件,传输速度比 FTP 和 HTTP 快达数百倍。 支持在云平台上或公共、私人或混合型云 平台上进行部署,涵盖广泛的服务器、桌 面和移动操作系统,具有端对端安全性、 100% 可靠性以及卓越的带宽控制能力。

Aspera connect在Ubuntu的下载和安装 :

wget https://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz

tar zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz

sh aspera-connect-3.6.2.117442-linux-64.sh

echo "alias ascp=/home/noodles/.aspera/connect/bin/ascp" >> ~/.bashrc

source ~/.bashrc

ascp -h


Aspera用法

~/.bashrc: 该文件包含专用于你的bash shell的bash信息,当登录时以及每次打开新的shell时,该该文件被读取。将 ascp 添加至此处。参考:.bash_profile和.bashrc的什么区别及启动过程 。每次修改.bashrc后,使用source ~/.bashrc 使修改立即生效。

根据数据的accession no. 逐步定位到sra文件,并得到ftp下载地址:

如SRR6208854的ftp下载地址为:ftp://ftp.ncbi.nlm.nih.gov/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra

则将其改为:

anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra

然后就可以在Ubuntu上使用aspera下载SRA文件,首先我们了解以下部分aspera参数:

USAGE:ascp [参数] 目标文件 目的地址

-T 不进行加密。若不添加此参数,可能会下载不了。

-i string 输入私钥,安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥, 使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。

-l string 设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。

-k 1 支持断点续传

--host=string ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为fasp.sra.ebi.ac.uk。

--user=string 用户名,NCBI的为anonftp,EBI的为era-fasp。

--mode=string 选择模式,上传为 send,下载为 recv。

--file-list 批量下载SRA文件的路径

因此可通过下述命令来下载SRR6208854.sra文件:

ascp -T -i /home/noodles/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra ./

(若ascp未添加环境变量,则使用 ~/.aspera/connect/bin/ascp )

我们可以发现,NCBI-SRA数据库的sra文件前面的地址都是一样的/sra/sra-instant/reads/ByRun/sra/SRR/...,可以根据需要下载的sra文件来编写脚本进行批量下载sra文件,也可过把sra文件的id写到一个文档,使用ascp批量下载文档中所有的sra文件,举例如下:

首先vi创建一个文本文件,如SRR_Download_List,内容为:

/sra/sra-instant/reads/ByRun/sra/SRR/SRR623/SRR6232298/SRR6232298.sra

/sra/sra-instant/reads/ByRun/sra/SRR/SRR623/SRR6232299/SRR6232299.sra

然后运行:

~/.aspera/connect/bin/ascp -T -i /home/noodles/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list ./sra_list.txt ./

即可下载。(上述末尾的./表示下载到当前目录)

参考:从NCBI-SRA和EBI-ENA数据库下载数据

2、SRA数据下载工具  SRA toolkit

SRA toolkit由NCBI开发,用于下载处理SRA文件,含有各种数据格式转换的工具包,其中fastq-dump和prefetch经常使用:

fastq-dump:用于将SRA数据fastq格式

prefetch:允许使用命令行来下载SRA,dbGap和ADSP数据

SRA的安装方法(参考:SRAtoolkit安装步骤):

Step 1:下载SRAtoolkit软件包这里用wget的-P参数,设置下载文件保存的路径是~/Biosofts/sratoolkit

wget -P ~/Biosofts/sratoolkit https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz

Step 2:解压压缩包用tar命令的-C参数,设置解压文件保存路径在~/Biosofts/sratoolkit

tar zvxf ~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64.tar.gz -C ~/Biosofts/sratoolkit

Step 3:测试安装是否成功

~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64/bin/fastq-dump -h

Step 4:将sratoolkit安装文件路径加入环境变量

echo 'export PATH=~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64/bin:$PATH' >> ~/.bashrc

source ~/.bashrc

Step 5:再次测试sratoolkit安装情况

fastq-dump

prefetch

当SRAtoolkit下载安装好后,即可使用prefetch来下载sra文件,以及使用fastq-dump将SRA数据fastq格式:

prefetch accession no. 即可下载,如下载 SRR6232298,则:

prefetch SRR6232298

软件自动建立~/ncbi/public/sra文件夹,sra文件

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容