挖掘SRA的辅助小工具(NCBI高通量测序数据收录库)

写在前面

伴随高通量测序技术的普及,海量的测序数据被产生并上传到网络数据库,如NCBI SRA。我们每个人都可以很轻易地获得这些数据,并用于有生物学问题针对性地分析。数据容易获取,但数据具体来源和信息却难以查看和整理。

SRA数据检索与查看中遇到的问题

通常,我们会先进入SRA数据库进行检索,如


其中,总共可看到菠萝可能有381个已收录的测序数据。
对这些数据进行信息筛选,如我们需要的是菠萝,果实,RNAseq数据,那么一般操作是
image.png

我们会得到一张表格,

看起来信息非常丰富,但基本没用。因为很多重要的信息并没有被包括进来。
所以聪明的做法,是


在页面中,我们可以看到最后,有组织以及其他发育阶段等相关记录(当然并不是所有数据都会有,只是比上述的RunInfo.txt信息全面很多)

当所需要筛选的数据只有几十个的时候,RunSelector事实上确实基本足够使用,可是超过60个就需要翻页,且常常无法下载表格用于进一步筛选。

一个新增的功能

事实上,在SRA检索结束后,我们下载文件时,会有另外一个选项,


这个XML文件,正如其名Full,其最真实的保留了每一个检索结果的几乎所有记录信息。所以,解析这个文件,是一个解法。

下载后打开这个文件,可发现,XML并非阅读友好的文件格式。但事实上,这个确实包括了所有我们需要的信息。

于是,我在TBtools中新增了一个功能,


使用起来非常简单,直接将下载完成好的SraExperimentPackage.xml文件,设置为输入,并设置好输出文件即可

于是我们得到表格

写在后面

以上,即是新功能的用处,或许并不是太多人会用到,不过我会用到。(恩...似乎有某个R包可以做,不过我相信,那个包在用户友好上可以继续提升)
最近我并没有推新的功能。主要精力放在个人的课题上,而事实上,也改进了TBtools中不少工具。其中有一处改动是对newick tree的解析,变得更加稳健。同时也改进了基于双名获得进化关系的工具。之前只支持被子植物(基于APG IV),现在我增加多数低等植物的可能的进化关系进去。当然也包括裸子植物等。


可以看到,现在可以可视化所有已测序的植物列表(被子植物,裸子植物,苔藓,蕨类,藻类...),一共是374个物种,你需要做的,只是提供一个双名列表

如果你确实需要用到TBtools,可到QQ群下载以及与其他用户朋友交流

欢迎访问本课题组网站

园艺植物小分子RNA与基因组研究-夏瑞课题组

课题组主页:http://xialab.scau.edu.cn/

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 花了两三天时间断断续续地读完吉本芭娜娜的《厨房》。 这本小说分为《厨房》、《厨房Ⅱ》、《月影》三个小故事。 《厨房...
    糖果悠唐阅读 4,086评论 3 11
  • Chmod_777阅读 2,444评论 0 0
  • 清晨的阳光刚刚晒进宇文府,下人们已经开始了一天的工作;宇文弘则是慢慢的收了功,拿着布擦着脸上的汗,又洗了洗脸,老夫...
    落城念阅读 3,122评论 0 0
  • 《五月祭》 岁岁五月粽香 飘洒满每个厅堂 是流年的记忆 还是心中久远的溃疡 那遍插门窗的艾叶哟 载满端午祭诗的篇章...
    潜龙随笔阅读 1,677评论 0 0
  • (稻盛哲学学习会)打卡第150天 姓名:王建凤 部门:杭州安简 组别:努力三组 一、诵读诵读《京瓷哲学》:第四张:...
    又昂阅读 728评论 0 0