TBtools | 多图合一至强版教程!进化树 + Motifs + 结构域 + 启动子 + 基因结构 + ....


放一张效果图,这些,三四年前的东西,我其实一直懒得说。


写在前面

“Gene Structure View (Advanced)”这个功能可以说,也是一时兴起写出来的。开发的主要动机,还是发现师弟师妹在做的事情实在是太费时间精力。就这样,四五年过去了。直到现在,我仍然没搞懂,这个功能是怎么被大伙用起来的。我甚至没有花过时间,专门为这个功能写教程。网络上已有的教程,均是用户们自发总结,确实已经讲解得足够清晰明白。多少,我有时看到还是有点感动,毕竟这些事情也可以说是软件开发的一部分。太懒,仍然是我的问题。工作以后,能静下心来写点文字的时间,越来越少。正是假期,我已然预见明天之后便是忙碌的一个月。为此,享受这最后一天。相对系统的总结一份教程,希望能减少一部分用户使用问题,也让一些朋友能够更好的使用工具。
这份教程,将会首先简单介绍界面组成,随后介绍分块功能(原名是 Amazing Optional Gene View,因为确实灵活),最后介绍全局组合。

功能界面介绍

TBtools 这个子工具的功能,比较稳健和丰富。可以先看看界面的主要组成。


  1. 待可视化的基因 ID 列表或者进化树,如果输入的是进化树,那么进化树也是有基因 ID 的,在程序逻辑上,跟 ID 列表区别不大。TBtools 会使用这个基因 ID 列表,自动提取MEME,Domain,尤其是gff3/gtf 文件中的基因结构信息。用于展示。可想而知,这个输入对于 gtf/gff3 文件来说是必须,对于 MEME 等输入非必须。

  2. MEME / MAST XML File,对应的是MEME Suite的两个软件输出。从MEME Suite分析Motifs后,自然会得到这两个XML文件。当然,也可以用 TBtools 打包的 MEME/MAST GUI Wrapper,直接在 Windows/MacOS 电脑下本地跑。

  3. GFF3/GTF文件 - 基因结构注释信息,此处是 TBtools 最有趣的地方。用户当然可以提供只包含某些基因的文件,比如某个家族的所有成员的基因结构信息。但对于 TBtools 用户来说,准备这个文件,只是画蛇添足。TBtools 直接支持物种基因结构注释信息全集!在软件处理逻辑上,会自动根据“待可视化的基因ID列表或者进化树”在后台提取出对应的基因结构,然后可视化。完全不需要用户自己去整理这些信息,毕竟这是一个繁琐的操作。

  4. 序列特征/结构域信息- 蛋白坐标,输入的数据格式在文本提示上已经注明“基因ID[\t]蛋白起始坐标[\t]蛋白终止坐标[\t]结构域名字”,输入数据一般可以直接通过一些结构域预测软件,如NCBI CDD,pfam,SMART等网站预测,简单整理得到。在最终可视化图表上,这些蛋白坐标将会被自动映射到基因组(外显子)坐标上。

  5. 序列特征/结构域信息- mRNA坐标,与 4. 中类似,输入的具体坐标为mRNA坐标,即Exon坐标。这类数据一般可以通过直接拿转录本序列(exon组合 - 可用TBtools提取完整转录本),随后用于分析。事实上,NCBI CDD也支持转录本直接预测结构域。对于我个人来说,则是用于分析小RNA靶向位点等。在最终可视化图表上,这些蛋白坐标将会被自动映射到基因组(外显子)坐标上。

  6. ID 重命名信息文件,在最终图稿上,用户可以直接给 ID 映射表格,批量调整 ID 名字,如“ATG123456”调整为“AthARF3”等。

  7. 一些有趣的参数

    • Fill in Gradient Mode,即是否渐变着色,在可视化数据多时,这个参数很有用
    • Motif Num:是否显示 Motif 的数字标志
    • Phase Num:是否显示剪接位点,即内含子外显子交接点的相位信息
    • Tree Layout:进化树的布局模式
    • Show Branch Anno:是否展示BootStrap值
    • Width:图片宽度
    • Height:图片高度
  8. CDD Result,为了方便用户做一些可视化,这个摁钮是去年顺手加上去的,因为我发现不少人就是想要直接放CDD的预测结果(而且是单独一栏,不映射到基因结构上)。换句话说,NCBI CDD预测之后,下载 hitdata.txt 文件就可以直接可视化,不需要用户做任何进一步文本整理。

9.BioSequences,这个更为灵活,只要用户了解TBtools的生物序列可视化功能,就知道如何准备这个文件。可以拿来可视化结构域信息,如pfam,SMART等,也可以拿来可视化启动子的顺式作用元件预测结果等。

主界面的介绍略显枯燥,也不形象,下面用非常多的使用实例来说明这个功能的有趣之处。

可视化 MEME/MAST XML 结果

一般情况下,将蛋白序列提交到 MEME Suite 网站,等待任务结束,即可得到 MEME.xml 或 MAST.xml 文件。不知道操作的朋友自行谷歌百度。这里给出网站的一个截图



有时候网站访问不到,那么可以用 TBtools 的 MEME/MAST GUI Wrapper跑。



所以非常简单.....
如果这个时候,只给部分基因的 ID,那么就只会显示这部分的 motifs 信息。

当然,很少人这么干。

可视化进化树

“Gene Structure View (Advanced)”以前的名字是“Amazing Optional Gene View”,其中最重要的是 Optional,表示这个功能非常灵活。用户可以只单独可视化某一个部分。比如只可视化进化树。



当然,更多时候,大家会希望和 MEME 图一起可视化。


image.png

可视化基因结构

在 TBtools 中可视化基因结构,用户只需要直接下载物种数据库提供的基因结构注释信息文件,一般是几十Mb的GTF/GFF3文件,而不需要进行任何处理,就可以直接用于基因结构可视化,相应的, TBtools 需要用户至少给 ID 列表,或者进化树。因为 TBtools 会基于这些IDs信息,自动提取出对应的基因结构,随后可视化。


当然,更多时候,我们希望是按照进化树的顺序来。


可视化结构域信息

很多时候,我还是比较推荐 NCBI CDD 的预测结果,我们提交预测信息上去之后,点击下载,则可以得到 hitdata.txt 文件,响应教程也请自行微信/百度/谷歌检索。以前肯定有人写过的。使用起来方便。


当然,还是那样,可能用户希望的是跟进化树放在一起...

可视化顺式作用元件(启动子)信息

顺式作用元件的预测,目前已经有不少推文可以看到了。微信百度谷歌一检索,肯定还是能看到我以前写的教程。使用Gene Structure View (Advanced)这个功能时,需要大体整理成以下格式。本例取的是 ATG 上游 1kb 的序列,提交到 PlantCARE 预测,随后整理。


同时应该提供每个序列的长度信息,这里都是 1kb。

随后即可用于可视化

当然,还是那样,可能用户希望的还是和进化树放在一起

在基因结构上可视化结构域特征

事实上上,上面的都比较直观,我们可以看到“基因结构”和“蛋白结构域”是分开绘制的。但事实上,蛋白结构域,本身对应的也是mRNA序列,回到基因组上,那么就是基因结构上的某一段。所以 TBtools 最初直接提供了两个输入区域,用户只需要考虑具体蛋白坐标或者mRNA坐标就可以可视化序列特征到基因组(基因结构-外显子-内含子)坐标上。此处先看看基因结构域信息。稍微整理了一下之前的 NCBI CDD 预测结果,整理格式大概是,



随后即可用于可视化,



当然,要从成员亲缘关系来分析,还是得给进化树

在基因结构上可视化转录本序列特征信息

蛋白序列特征,如保守结构域信息当然是大家都在关注的。也有一些情况,序列特征体现在转录本序列上,体现在核酸水平,比如小RNA(如miRNA)的靶位点。对于这类信息,只需要简单整理成类似文件,如下



随后即可用于可视化



当然,还是那句话,进化树可以一起展示

当然,在同一进化分支上不同基因上靶位点会保守存在


对进化树进行重命名...

Emmm,TBtools在开发的时候,一直追求的是ID的统一性,但在最后图稿上,一般用户都希望是可以替换成自己喜欢的名字。比如做一个简单的。



其中,重命名信息文件的格式简单,也就是两列,制表符分隔。



(当然,这个例子里面转录本都包含进来了,一般做家族分析,我们是不会包含转录本信息的)

多图组合

如上所示,其中每一部分都可以分开可视化,也可以随机组合,也可以全部组合!,这就是所谓的Amazing Optional....。这里放出一张图稿。


效果如下(进化树还是用Cla....这个布局好看点),

当然,其实还可以利用 JIGplot 特性(毕竟我是开发的嘛)做更多的事情...就不再赘述。

写在最后

没啥好说的。准入门槛越低,越是容易被误解。
“终于,我们没有改变世界,是世界改变了我们”。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容