省事地获取已公开测序数据的下载链接(.sra|.fastq.gz)

写在前面

课题需要,前述,在TBtools中开放了一个SraExperimentXML2InfoTable的功能。在这个功能的辅助下,我们较快的完成了阶段任务。筛选数据完成了,但是下载数据却出现了问题。
主要遇到的问题是

NCBI的数据,似乎有时候能下载到,有时候却下载不到。或许网速是一个原因,但我更多地开始认为或许NCBI并没有存储所有的短读段测序数据。DDBJ也是一样。相反ENA似乎存储全面,只是传输速度一般。

无论如何,下载数据的第一步是需要获取数据所在链接。
为了让小课题成员快速获得链接并完成各自的任务,我做了两个小事情。

优化原有功能

SraExperimentXML2InfoTable工具的输出,增加两列,

  1. NCBI FTP link
  2. DDBJ Potential FTP link

如图


总的来说,NCBI FTP link多数时候是可以下载的;而DDBJ存储的数据确实很少,所以link是Potential的,意思就是,数据很可能并不存在。我个人的经验是,NCBI下载不了的时候,从DDBJ的link却常常可以下载。

But,最优秀的终归还是ENA。如前所述,ENA不仅存储了数据的SRA格式的数据,还存储了Fastq格式。在早前NCBI还没发表fasterq-dump时,直接下载fastq.gz文件的整体耗时明显短于下载SRA格式数据之后用fastq-dump转格式。
虽然现在耗时不相上下,不过下载fastq.gz仍然是一个选择,比如,你并没有fasterq-dump的时候,你却一定会有gzip甚至是pgzip.
Anyway,总会有某种情况,我们会需要从ENA下载数据,无论是SRA格式还是DDBJ格式。正如我们本次课题遇到的情况。所以TBtools增加一个功能

基于SRRnum获取ENA links信息

ENA存储测序数据,并没有绝对的规律,部分数据有专门的目录,部分数据放在不同深度的目录。故,无法通过像NCBI或者DDBJ一样的操作去拼接链接。而只有两个操作:

  1. 爬虫,解析整个ENA的FTP,获得并保存文件地址
  2. 爬虫,针对给定的SRR获取其对应的信息

第一个操作比较重,很多时候也没必要。于是我采用的是第二个操作。花了大半个小时,顺带打了GUI
打开TBtools,跳转到对应功能


设置输入文件,图中可见,准备一个txt文本文件,每行一个SRR number,保存并用做输入;设置输出文件是,注意补齐文件名

为了避免被ENA封杀IP,操作是大概每个SRRnumber信息获取后等待1~3s,所以输入100个SRRnum可能需要花5min才能将信息获取完毕。

信息获取完毕后会有弹窗提示,所以此时最好去玩一局贪吃蛇。


OK,弹窗时,贪吃蛇是没有暂停的(所以一定会Game Over),用Excel打开结果文件



可以看到,左侧即为fastq.gz文件下载链接(推荐用aria2c或者迅雷,IDM下载),右侧为sra格式文件

写在后面

Done. 节后开工第一天。
祝大家科研顺利。

题外

课题组每年暑期有内部生信入门培训,主要是对实验室新生开展(以及湿实验为主的成员)培训。一直有收到其他课题组想要了解我们课题组生信数据分析的想法。故,在博导的提议和课题组的讨论后,我们近期计划,在本年度暑期(7~8月份之间)对外增设生信基础培训名额10枚(前面每年只是课题组内培训,而不对外)。具体请见https://mp.weixin.qq.com/s/OtmeTErd9f9rvjJPtBKjMw

欢迎访问本课题组网站

园艺植物小分子RNA与基因组研究-夏瑞课题组

课题组主页:http://xialab.scau.edu.cn/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容