一、系统发育树的基本情况
系统发生树(Phylogenetic tree),一般也叫系统进化树或简称进化树,可基于分子进化的假设,基于特定的算法,构建展示一定的树状分支图形来表示物种或基因之间的进化关系。所使用的数据一般是核苷酸或者氨基酸序列,所使用的算法常用的有距离法(genetic distance,最常用的是邻接法Neighbor Joining Method,即NJ法)、简约法(Parsimony Method,典型代表是最大简约法Maximum Parsimony,即MP法)、最大似然法(Maximum Likelihood Method,即ML法)、贝叶斯法(Bayes Method)和网络法等。
从狭义上来说,常见的进化树构建大致可以分为基于单基因或者多基因的基因树,以及基于全基因组序列(如全基因组的SNP或者全基因组序列、全基因组单拷贝基因等)构建的物种树。从广义上来说,基因树是指根据DNA或者蛋白质序列数据构建的系统树,物种树则是表达生物类群进化路径的系统树,常使用的数据包括DNA序列、RNA序列和蛋白质序列。
二、常用权限值及含义
那么为了获得一个比较合理的进化树,需要注意如下规则:
1、序列的选取
(1)选取的序列,无论是蛋白质序列还是核苷酸序列,不能所有序列都100%相似,但也不能相似度太低,进化树是基于微突变来构建拓扑结构的。(2)如果DNA序列相似度低于70%,就不容易获得较为确定的比对,因为采用不同的比对结果,可能得到不同的系统发育树,一般来说,编码蛋白质的序列比较容易得到较为肯定的比对结果,编码RNA的核糖体基因利用保守的二级结构也可以得到争议较少的比对结果,但对于内含子区、非编码区、高变区,特别是长度变化很大时,常常很难得到较好的比对结果。(3)由于编码区是使用三联密码子进行蛋白质编码的,这类核苷酸序列比对后产生的空位数目(若有)应该是3的整数倍,空位位置也应该是以3为单位连续出现的,如果不是,说明多重序列比对是错误的,没有生物学意义,需要手工调整。(4)在选择基因标记进行系统发育分析时,建议优先选择蛋白质序列,但如果蛋白质序列相似度太高或者完全一样,则最好选择DNA序列,以求获得更多的突变信息和样本间差异。
2、算法的选择
对于进化差异区别度较高的样本,理论上来说,选择多种不同的算法结果应该相似。关于各类常用算法的选择,推荐如下。
(1)邻接法(Joining Method,即NJ法)
该算法最大的特点是计算速度快,适用于大样本量的系统发育树分析。一般该算法常用于序列相似度较高的,一致性较好的情形,对于序列差异较大,家族类群较多等情形,计算可能会不太准确。
(2)最大似然法(Maximum Likelihood Method,即ML法)
这种算法使用频次较高,适用面较广,使用这种算法的软件也比较多,准确性较好,是很多软件的默认算法。该算法对于序列相似度太高的情形计算准确性可能不会太好,另外一个较为突出的问题是计算耗时较长。
(3)贝叶斯法(Bayes Method)
贝叶斯算法是一种经典算法,一般适用于ML法的各种场景,也适用于贝叶斯法,但它的计算速度会更慢一些,常用于分歧时间推断,也是较为推荐的一种算法。
有些文章会同时使用多种算法构建同一种进化树,一并展示在结果上。例如下图案例。
3、基于SNP、单拷贝基因构建进化树
区别于单基因进化树或少数基因串联的进化树,如16S rRNA系统发育树和MLST系统发育树,全基因组层面的进化分析通常基于整个基因组的SNP或单拷贝基因进行,一般常用的是core SNP和同源单拷贝基因。这些SNP或者单拷贝基因,存在于所有的样本中,只是存在细微的碱基差异而已。core SNP进化树推荐使用Snippy软件或者kSNP3软件call SNP和构建进化树,下图所示的就是基于SNP的进化树;同源单拷贝基因进化树可以使用OrthoFinder软件+FastTree软件构建进化树。
4、进化树美化
在完成进化树的构建之后,我们可能需要对进化树的拓扑结构、标签等内容进行调整或者增加样本的注释信息来实现进化树的美化加工。这些可以通过iTOL(https://itol.embl.de/)在线平台和该平台给予的注释模板来完成。在展示方式上,对于注释信息较多的情况,通常绘制成矩形;而对于样本量较多的情况(比如一二百个)则可以使用环形展示;如果想要更清晰地看到不同物种间的分歧,推荐辐射形展示(如下图)。
对本文的内容有疑问可以在本文章末尾评论或通过简书“个人介绍”处的方式联系我们。