写在前面
当我们关注某个基因时,在计划对其开始基因功能研究之前,往往需要先做「基因家族分析」,原因有几:
- 通过演化树分会初步判断基因可能功能;
- 是确定其是否有替补队员(如此敲除就得一起敲除);
- 保险起见查看基因的编码序列是否完整,必要时进行基因结构注释矫正。
事实上,这些基本是每一个做分子生物学实验的人所必须掌握的技能。有趣的是,TBtools和GSAman就可以在这些事项上帮许多人介绍数天乃至数十天的时间。
但是,很多时候我们关注到一个基因,关注到对应的某个基因家族,能看到的也就只有这个物种内部的情况,比如成员多少,分支集合。做得细致一些,可能跑跑两三个物种的共线性分析,往往不能说明多少问题。
「抛开 演化 谈 生物学 就是 耍流氓」。从物种演化的尺度上看问题,往往能给我们提供更多有趣的东西。我们可以看看,对家族成员的扩张到底是仅仅发生在当前物种?还是发生在当前物种与近源物种的共同祖先?我们关注的成员,到底是新产生的?还是近源物种丢失了?这一切,需要从物种演化的尺度看基因的获得与缺失。
有分析经验的朋友可能会说,哦吼,那不就是跑一下 cafe? 这个对也不对,因为cafe的关注单元是「一个基因家族」,分析的是几乎所有基因家族在演化尺度上的扩展与搜索,实际上这个与湿实验的朋友关注的并不在一个尺度,因为我们关注的是「一个基因」(归属与某一个家族),分析的是这个基因到底是什么时候出现或者在哪里丢失。后者,其实有一款软件叫做 notung。这块软件不是非常容易使用,理解原理比较简单,但是操作起来非常繁琐,尤其是文件准备上。
然而,我发现我不时就需要用,那么不如就给他鼓捣鼓捣做成 TBtools 插件,如此就每次都可以轻松点点,搞定分析。
基因在演化尺度上的获得与丢失分析
注意:需要用 TBtools v1.126 或者更高版本
直接从插件商店,即可安装「Gene Gain & Lost Analysis」
PS: 暂时没想清楚要不要公开释放,让朋友先补了一个授权限制,示情况再定
打开插件后,可以发现一共是三个模式
- One Step: 一键化模式,用户只需要填入需要的文件,点击 Start 等待开始即可;
- Just Prepare: 一键化模式中蛋白序列的进化树构建需要时间,调用的是 IQ-Tree,但是一些时候我们想用其他方法,比如 raxml 建树,那么就只需要用这个功能进行文件准备,建立好进化树之后,再用最后一个模式即可
- Invoke Directly:有些时候,我们可能自己准备好了一颗物种树和一棵基因树,这个时候可以直接分析。当然,其实这两个准备都不是很方便,ID对应也有一些坑,推荐用 Just Prepare 准备文件再去建树。
此处,我们只介绍最多人可能会感兴趣的「One Step」模式。
一键分析基因在物种演化尺度的获得与缺失
首先查看界面
示例文件如下,我们的目的是看看 生长调节因子 转录因子 GRF 在几个被子植物中的获得与缺失情况
# 有需要的可以自行下载
https://tbtools.cowtransfer.com/s/971bfd66bd5d49
简单查看文件内容,比如「species_tree.txt」,事实上,如果是做植物的话,逻辑上可以基于物种双名直接用 TBtools 获取到物种演化树。
至于蛋白序列(!注意,每个文件只存放该家族的成员即可),另外,注意每个基因一个蛋白序列就好,可变剪切不要置入
于是,接下来操作分享简单,直接拖拽或者选择文件置入即可
点击 Start 之后等待即可。注意到,这个主要跟蛋白家族大小有关,如果家族成员真的多,比如一个物种100个,那么5个物种就是500个蛋白序列,如此建树自然会比50个蛋白序列来得更慢。总之就是等待....考虑用 demo data 跑跑看看,大概是30min,视电脑的具体性能有不同,再对应跑自己的数据。运行结束后会自动弹出两个窗口:
(1)从物种角度的 GRF 成员的扩张与收缩情况
可以看到一些物种一直在收缩,另一些物种可能一直在扩张。其中甜橙有一定扩张。菠萝则呈现明显持续收缩,这与我们之前发表的论文结果一致(Yi et al., 2023)。不过,这个分析比我们发表的结果更靠谱一些,因为我们从本文的分析,我们可以观测到具体是共同祖先节点有扩张,还是当前物种相对于近源物种的特异扩张。
(2)从基因角度的 GRF 成员的获得与丢失情况
当我们知道分支是扩展还是收缩的时候,我们会开始考量,到底是哪些成员那些分支扩张了?另外是,那些我们看不到的基因已经消失在历史的长河?所以,还有基因树的分析结果。
总的来说,这两个都有用处。对应文件和图片都自动保存到输出结果目录,方便后续分析。
写在最后
感觉不错,我相信,这个功能应该会帮助到不少朋友从演化尺度去看基因的获得与丢失,体会生信数据分析的有趣之处。
单纯的数字大小比较,停留在一维;而从演化尺度来比较,那么就是二维;加入再结合网络,就是三维。与大伙共勉!