GEO数据挖掘(一)下载SRA库原始测序数据

对于很多生命科学研究人员来说,经常会面临这样的问题:“不知该从哪个基因入手研究、有感兴趣的基因但不知道如何深入研究、不知道如何整合某一类疾病研究领域的数据进行分析”。这些困扰都可以通过挖掘SRA数据库的测序数据来解决,例如通过检索整理高分文章的热点基因、下载其原始数据进行深度挖掘分析、再辅助湿实验进行验证,便是一套简单完整的生信研究思路。

上一期给大家分享了如何下载GEO数据,但如果只是用GEO数据的表达矩阵去分析上调下调基因,很有可能一些 “明星”基因已经被别人做过了,研究的创新性不足。而实际上,SRA数据库内有一些已发表的CNS文章的原始数据还有非常大的潜力等待被挖掘,如果研究人员只做了编码基因,则可以研究非编码基因,探究DNA调控元件;如果数据测序深度很深,则可以研究反式剪切,挖掘潜在的环状RNA;甚至可以拿原始测序数据从头分析,探寻新的基因。结合GEO数据库和SRA数据库进行数据挖掘可以“点面结合”地探究基因功能和通路等。

SRA数据库介绍

SRA(Sequence Read Archive)数据库是NCBI旗下用于存储高通量测序数据的子库,SRA数据库收集着测序的原始数据,可以免费下载全球已发表文章的原始测序数据。SRA数据库的基本框架是基于 STUDY, SAMPLE, EXPERIMENT, RUN 四个概念构建的。

STUDY :研究课题/研究项目,前缀 SRP,DRP,ERP 开头。

SAMPLE :样本信息,前缀 SRS,DRS,ERS 开头。

EXPERIMENT : 实验信息, 一次实验包含了一个或多个样本进行一个或多个RUN的测序。前缀 SRX,DRX,ERX 开头。

RUN : RUN对应某一个/对fastq下机的文件。前缀 SRR,DRR,ERR 开头。

注:前缀的第一个字母:表示样本原始被上传到的源数据库,NCBI数据库会同步EBI和DDBJ数据库的测序数据。

SRA库原始数据下载

无需LINUX操作环境的网页下载

1. 网页下载

https://trace.ncbi.nlm.nih.gov/Traces/index.htmlview=run_browser&acc=SRR9826926&display=download

使用任意浏览器,推荐火狐浏览器,打开这个网址,如图点击就自动下载了。

2. 浏览器插件

下载Aspera connect的浏览器插件进行下载。https://www.ibm.com/aspera/connect/

再按照网页方法类似步骤,利用aspera插件实现快速批量下载SRA的数据

LINUX操作环境的下载

prefetch命令下载

https://www.ncbi.nlm.nih.gov/sra/?

首先通过SRA 的RUN selector整合出所需下载的Accession List ,再通过Linux的命令行批量下载SRR文件。

# 使用prefetch命令下载单个文件:如SRR1039510

prefetch SRR1039510

# 批量下载:建立循环,并查看

outputdir=/**/sra

cat sampleId.txt | while read id

do

  echo "prefetch ${id} -O ${outputdir} "

done >download.sh

nohup sh download.sh >download.log &

# 验证数据的完整性

Vdb - validate SRR1039510

Aspera Connect下载

在ENA网站搜索项目号获得FastQ文件的下载地址,在Column Selection栏内勾选需要的信息(如下图)。

https://www.ebi.ac.uk/ena/browser/v

# 下载单个文件

# sra格式

ascp -k 1 -QT -l 300m -P33001 -i ~/**/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR103/008/SRR1039508 .

# gz格式

ascp  -k 1 -QT -l 300m -P33001 -i ~/**/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_1.fastq.gz .

# 批量下载

# 得到sra.url文件,如果行尾存在特殊字符,运行 sed -i "s/\s*$//g" sra.url 去掉行尾特殊字符

cat filereport_read_run_PRJNA229998_tsv.txt |awk 'NR>1{print $NF}' >sra.url

cat filereport_read_run_PRJNA310728_tsv.xls  |awk -F '\t' 'NR>1 {print $20}' |tr ';' '\n'  >fastq.url

# 命令

outputdir=/**/sra

cat  sra.url |while read id

do

  echo "ascp -k 1 -QT -l 300m -P33001 -i ~/**/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}"

done >sra.download.sh

# 提交后台

nohup sh sra.download.sh >sra.download.log &

## 数据完整性检验

# 得到md5值

awk 'NR>1{print $11"\t"$4}' filereport_read_run_PRJNA229998_tsv.txt >md5.txt

# md5值检验

md5sum -c md5.txt

总之,使用prefetch和aspera就可以抓取SRA下载的Access list信息,然后下载到需要的FastaQ文件。

目前我们已经完成了GEO数据库和SRA数据库的测序数据的下载步骤,已经拿到了分析的原材料,后续将分享“对测序数据的个性化分析,挖掘显著基因,富集通路等”一系列教程,请持续关注“GEO数据挖掘”系列文章,每周一个实用干货带您上手生信分析。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容