一文读懂进化树(图文详解)

一、什么是进化树

系统发育进化树 (Phylogenetic tree):** 一般也叫系统进化树,进化树。它可以利用树状分支图形来表示各物种或基因间的亲缘关系。

建进化树的过程,用术语讲:

分支系统发育分析 (Molecular phylogenetic analysis):** 是用来研究物种或序列进化和系统分类的一种方法。一般研究对象是碱基序列或氨基酸序列,通过数理统计算法来计算生物间进化关系。最后,根据计算结果,可视化为系统进化树。

二、进化树的构成

我们模拟一个项目,使用人和鼠的各两个基因做进化树,结果如下:

mark

可以看到上面有一堆标注,下面来看看它们代表什么意义:

1. 根 (Root)**

所有分支的共同祖先叫做根

根据有无根可分为:

有根树:上面的图就是有根树,可以从树中找到共同的祖先。

无根树:顾名思义,没有根,也就找不到共同的祖先。比如后边会提到的 Straight Tree

2. 结点 (Node)**

每个结点代表一个分类单元,物种上可以是属,种群等,基因上可以是基因家族,同源物等。

这里需要注意,有的人会把 node 翻译为节点,但是节点与结点有着不一样的含义:

节点:通常被认为是一个实体,比如互联网上的每台计算机,蛋白互作网络的每个蛋白质。

结点:只是一个交叉点,指交汇点,并不代表一个实体或事物

所以,在进化树中 node 最好翻译为结点。在计算机数据结构链表也需要注意二者区别。

但是,也有另外一种解释:

这种解释将 node 分为 外部节点与内部节点:

外部节点又叫叶节点,也就是最外层的人基因1,人基因2等,代表参与分析的序列样本

内部节点,也就是我们使用蓝色标注的位置,代表假定祖先。

3. 进化支 (Branch)

也叫分支,指两种及以上的生物或序列组成的进化关系。

可以利用这个来看同源。比如,上图中人基因1与人基因2可能是旁系同源基因,而人基因1与鼠基因1可能是直系同源基因。

4. 外群

与分析序列相关的生物序列,但是具有较远的亲缘关系。

5. 进化分支长度

也叫遗传变异度,进化距离。一般会标注在分支线上,代表进化支变化的程度,越短代表差异越小,进化距离越近。比如人基因1与人基因2的遗传变异度为 0.21+0.22=0.43。 遗传变异度实际代表基因组序列中每个位点碱基的替换频率,计算方法也很简单:变异度=变异碱基数/总碱基数(%)。我们常见的形式,通常以0-1的小数来表示,代表100个碱基位点的变异度大小。

我们可以从水平方向上的分支及长度,看到进化谱系随着时间的变化,进化分支长度越长代表着该分支对应的物种或基因的变化越大。比如,对应上图,我们可以描述为人基因1相对其他基因在进化时间上更早,而且在进化时间上鼠基因2最晚。

有意思的是,根据基因序列相似度与进化时间假说对这种进化距离进行转换,就可以得到分子钟。比如,用它分析病毒进化树,甚至可以推断出初代病毒产生的时间点。

6. 距离标尺

生物或序列间差异数值的单位长度,相当于进化树的比例尺。

7. Bootstrap value

一般会标注在结点,用来评估该分支的可信度。

Bootstrap value 对于我们后续分析比较重要,尤其在进化树评估中。

三、进化树评估

1. Bootstrap检验

对于进化树评估一般会使用 Bootstrap 进行检验。

Bootstrap检验,自举法检验,也叫自展,自助法。其实就是放回式抽样统计法的一种,通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

2. 重复取样值

那么重复取样的次数会在建树时设置,现在一般文章要求Bootstrap 取样值 >1000。

3. Bootstrap value 阈值

虽然根据严格的统计学概念,自展值需要要大于95%才较为可信。

然而在实际应用中,我们一般认为结点的 Bootstrap value > 70,这个分支就是可靠的。特别是微生物等相似度比较大的分类中,一般大于50%就认为可信(小于50%不会显示)。

4. Bootstrap value 与分支

如果低 Bootstrap value 更靠近分支末端,代表相似度太高而很难区分

如果低 Bootstrap value 更靠近根,代表相似度太低

四、几种进化树图

1.经典树图(Traditional)

Rectangle Tree

优点很明显,就是可以清晰的展示出样本间进化距离和进化分支。缺点就是展示出来效果不炫。

mark

有时候也可以这样显示,相对来说,更酷一点:

Straight Tree

mark

再酷一点:

Curved Tree

mark

2.圈图(Circle Tree)

本质上是将树图极坐标化。这种图,可以说是进化树最炫的一种展示,而且在分析样本数量大的时候,效果更佳。但是,致命缺点是可读性不好,比如很难横向对比进化距离。因此,适用于展示差异较大的物种或基因样本。

mark

3.辐射树(Radiation Tree)

这种图用于根不确定的进化树构建。它可以将相似度高的样本序列聚集在一起。因此,更适合做亲缘关系近的物种或差异小的基因样本。

mark
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351