重建系统发育关系=分子数据建树?
一提到phylogeny,我们的第一反应就是分子数据建树。这种理解是片面的,但也反映了一些它的分类学的区别:
首先,分类学在根据character state(性状特征)进行grouping(划分类群)后只给出了ranking(等级)和nomenclature(命名)。ranking中的界门纲目科属种也都是人为划分的。而phylogeny却可以给出phylogenetic relationship(系统发育关系) ,并且用系统发育树的形式展现出来。这不就和evolution攀上关系了,毕竟还是那句话:
Nothingin biology makes sense except in the light of evolution。
下图提供了一个phylogeny和传统分类学相互融合的例子:
其次,phylogeny可以利用分子性状,而传统分类学多依据形态学和生态学的性状,相比分类学家主观的对形态学和生态学的性状的评判标准,只有ATCG四种碱基构成的生命天书使得客观的,使得可检验的评判标准成为可能。
那为什么说phylogeny就是分子数据建树这种理解是片面的呢?
首先,用来重建系统发生关系的并不仅是分子数据(比如DNA和蛋白质序列),而是character(性状),包括形态性状,生态性状,行为性状,生理生化性状,总之就是:any trait of a group of organisms being compared(用来作比较的生物类群的任何特征)。
而真正用来比较的是character state(one of the manifestations of a character observed in an organism),这个也好理解,花瓣数是一个character,那到底几瓣?三瓣还是五瓣?这就是character state。
现在phylogenetic study之所以大都选用分子数据,是看它骨骼惊奇,是重建系统发生关系的奇才。
第一,它可以提供大量的性状和有用的信息。比如人类基因组可提供32亿个核苷酸位点,每个位点都可以看做一个性状。之前,一些生物形态上的变异非常少而无法对它们进行分类, 用分子性状就解决了这个问题。
第二,分子数据容易处理,尤其是序列数据,不像形态性状那样容易产生歧义(比如每个人对大小颜色的感觉都是不一样的)。相比于形态和生态性状,人们终于可以客观,定量和可验证地处理数据和确定重建系统发生学关系的方法。
第三,数据的获得简单,方便又廉价。所有活的生物体都可以测定目标序列。而且测序的价格在降低,生物信息分析的手段在完善。
第四,入门门槛低啊。培养一个特定生物类群分类学家需要几年甚至几十年,提DNA、测序、然后用现成的软件建树只需要几个月。
现在我们来说把phylogeny等同于用分子数据建树是片面的第二点原因,那就是重建生物系统发生关系也并不等同于建二歧树。目前普遍使用的二歧树是经济适用树,是我们向现实妥协的结果,并不能完全反映真实的系统发生关系,比如杂交成种现象就没办法用二歧树表示。真实的系统发生关系更像是网状的,存在各种复杂的情况。
重建系统发育依据什么?——同源相似性状
我们在上一节提到构建系统发育树依据的是性状,那么性状和系统发育树的关系是什么样的呢?
Speciation events and divergence create character state distribution.
物种形成和分化伴随着性状状态的分布。
下图就是一个性状状态分布表现在系统发育树上的例子。红色和绿色代表一个性状的两个不同的性状状态(character state)
不论是分子数性状还是其他性状,都必须遵守用来进行比较生物学研究的性状的基本条件:同源相似的(homogenous)。
Homology means the similarity of parts due to common ancestry. But we don't know evolution history, homology can only be hypothetical!
什么是同源性(homologous)呢? 如果两个物种的同一性状继承自它们的共同祖先,那么这一性状是同源的。但实际上我们并不可能预先知道演化历史,因此同源性都是假设的。
什么是同源相似性呢?
就是一个性状在多个物种中表现出相似性是因为这一性状继承自它们的共同祖先。如果同源性状状态只进化了一次并且在最初进化出这一性状的祖先的所有后裔中都保留了下来,那么这些共享的同源性状状态就提供了不同物种拥有共同祖先的最好证据。比如,马和斑马的一趾继承于他它们的共同祖先。
有同源相似的,就有非同源相似的(homoplasious)。
非同源相似指一个性状在多个物种中表现出相似性,但是在不同物种中的性状状态并不继承自共同祖先,而是多次独立进化产生的,比如两足运动方式在人类和兽脚类恐龙中是各自独立演化的。
造成非同源相似的原因有很多,比如进化逆转,趋同进化(convergence)和平行进化(parallelism)。
为什么我们要求同源相似呢?因为系统发育树的分支发生的顺序界定了物种亲缘关系的远近,而非性状的相似性。比如蜥蜴类和鳄鱼类从形态性状上看更相似,但是鳄鱼和鸟的亲缘关系更近。因为蜥蜴类和鳄鱼类存在平行进化。
那么问题来了:我们的前提是所有的生物类群都来自于同一个共同祖先,那么只凭借同源相似性状怎么可能把这分类群分开呢?其实在进行演化历史分支时,凭借的是共有衍征(synapomorphy)。
个人感觉共有衍征是个相对的概念,举个例子:
脊椎的存在被视为所有脊椎动物拥有共同祖先的证据,因为有充分的理由认为脊椎只进化了一次,而且在脊椎动物共同祖先的所有后裔中都保留了。此时脊椎的存在对所有脊椎动物来说是同源相似性状,但是我们后退一步,把无脊椎动物也包括在视野里,这是脊椎的存在就成了衍生的性状状态,是所有脊椎动物的共有衍征。靠脊椎的存在,我们就可以把脊椎动物这一个clade和无脊椎动物这一clade分开,实现分支。
Phylogeny:link between process and pattern
简单地说,系统发育就是将演化过程和性状模式连接起来的纽带。
上图展示的是在已知物种演化关系时对不同性状演化关系的分析,但是实际情况是我们并不知道物种的演化关系,因此判断性状的同源性是十分困难和重要的。
系统发育关系的表现形式——系统发育树
我们常说建树,那什么是系统发育树(phylogenetic tree)?
A phylogenetic tree represents the evolutionary relationship among a set of organisms or groups of organisms, called taxa(singular: taxon) that are believed to have a common ancestor.
系统发育树是对认为有共同祖先的一组生物类群的分枝进化历史-祖先谱系分支形成各种各样的后代谱系的历史-的一种展示。
广义上的系统发育树也包括描述基因、个体、种群等种下阶元之间系统发生关系假说的树状图。我们在这里说的以物种为单位的系统发育树也称为基本系统发育树
The topology and associated branch length information will be referred together here as a tree.
拓扑结构(topology)和相关的分支长度(branch length)信息一起构成了系统发育树。
先说topology(拓扑结构)吧。
topology也被称为branch pattern(分支型式)。个人感觉是一眼望过去大概得到的信息,包括taxa(分类群) 在系统发育树上的分支情况,各分支的排列和相对位置。这种分支情况是对taxa演化历史的反映。
拓扑结构信息(topological information)包括了节点(a set of nodes, commonly referred to as vertices)、内部分支(internal branches)和外部分支(external braches; braches, commonly referred to as edges)。
每个节点代表的是共同祖先(hypothetical common ancestor),共同祖先并不是证明真实存在的,而是假想的。
分支代表的是谱系(lineages),一个谱系内部分支连接两个节点,而外部分支只连接一个节点,没有连接节点的一端(tip)代表一个taxa。taxa代表我们进行比较的,现实存在的分类群(real taxa for which character have been coded),也有参考书把它们称为可操作分类单元(OTU,operational taxonomic unit)。
下面来说分支和分支长度。
分支长度(branch length)是进化时间和进化速率的乘积(b=r·t)。但是分支长度并不一定等于进化改变数量,而是与进化改变数量成正比或是进化改变的预期值。
系统发育树可以是有方向(directed)的或有根的(rooted),也可以是无方向(undirected)的或无根(unrooted)。
系统发生树的根(root)是最先分叉并产生两个或更多后裔的祖先谱系。根决定了所有性状随时间变化的先后顺序,即性状演化的方向。所以有根树可以反映分类群从树根部的共同祖先分化出来的时间顺序。
那么怎么赋根呢?
最常见的方法的方法是引入外类群。
我们感兴趣,进行研究和比较的分类群称为内类群(ingroup),而在建树时,我们会加入外类群(outgroup),即一个或几个与内类群物种的亲缘关系肯定要比内类群物种间的亲缘关系更远(根据先验证据而判定)的分类群。因此合理的系统发育树的树根应该位于ingroup和outgroup之间。
当然除了外群赋根(outgroup rooting),还有其他方法:分子钟赋根法,也称为中点赋根法(midpoint rooting),是将系统树上通径最长的两个taxa的中点做为根。其原理是根据分子钟假说,
以rooted tree为例,任一祖先的所有后代谱系形成了一个进化枝(clade)。下图中,B、C形成了一个进化枝,E、F形成了一个进化枝,D、E、F一起也形成一个进化枝。而起源于一个共同祖先的两个进化枝叫做姐妹群(sister group),这里B、C形成的进化枝和D、E、F一起形成的进化枝就叫做sister group。
一个进化枝也叫做单系群,那么什么是单系(monophyletic),多系(polyphyletic)和并系(paraphyletic)呢?先上张图体会下。
单系性(monophyly)是指从一个共同祖先进化而来,符合单系性要求的任何分类单元都被称为单系群(monophyletic group),即来自同一共同祖先的全部后代
并系性(paraphyly)指分类单元没有完全包含一个共同祖先所产生的全部后代。并系群(paraphyletic group)包含了一个来自最近共同祖先的部分后裔及其演化分支。
多系性(polyphyly)是指分类单元包含了两个或多个最近共同祖先的后裔,即多元起源的分类单元。包含了两个或多个最近共同祖先的分类单元称为多系群(polyphyletic group)。
从系统发育树中可以得到:祖裔关系(ancestor-descendent relationship, ADR)、相对祖先近度关系、姐妹群关系、相对进化速率关系和分歧年代关系。
系统发育:优秀却不完美——取样的不完整
尽管重建地球上所有生物完整的演化历史是系统发育的终极目标,但是,清醒一点吧,地球上存在过的99%以上的生物都已经灭绝了,保留化石记录的生物数量只占其中很小的一部分。我们用来建树的证据也只是现存物种中的一部分,并没有收集完全,这种分类单元取样的不完整性在不同程度上会影响系统发育重建的结果。
所以我们要明白系统发育重建的关系与真实的生物演化历史还是存在区别的。
关于要不要把化石证据纳入到系统发育分析中也存在很大的争议。如果我们将化石证据纳入到系统发育分析中,这里有三个名词,将来自一个祖先的所有现存分类单元称为冠群(crown taxa),已经灭绝的化石类群称为基群(stem taxa),基群和冠群联合起来称为总群(total taxa)。
那么研究phylogeny的意义在哪呢?
Phylogenies provide a system for
1)representing hypotheses of evolutionary relationship.
2)Assigning organisms to taxa.
3)Describing the distribution of character states among taxa
4)Representing relative divergence times, or calibrated divergence time.
那么什么样的phylogeny才是最好的呢?
The phylogeny that correlates with character state distribution(DATA) is the best。
既然是用character state 推断phylogeny,那么当然是与观察到的性状状态分布相关的系统发育关系是最好的。
那么一组分类群可能的系统发育关系有千千万,我们怎么确定那个最好?
我们以后将介绍其中常见的三个方法:
Maximum Parsimony(最大简约法)
Maximum Likelihood(最大似然法)
Bayesian Phylogenetics(贝叶斯系统发生学)