一文学懂进化树原理

进化树概念

系统发育树(phylogenetic tree),也叫进化树,是物种间、基因间、群体间乃至个体间谱系关系的一种表现形式。

Node: 分枝的连接点或分枝的尖端都称为节点。 内部节点连接分枝;外部节点代表分类单元
Clade:一个祖先节点及其所有后代节点的组合称为一个分支。
Branch Length:分支长度,大多数情况下是分歧度,代表突变的累积

进化树的类型

根据是否指定了根节点,系统发育树可以分为有根树和无根树。

  • 无根树没有指定祖先节点,只能看出各个节点的拓扑结构和相对距离。
  • 有根树指定了根节点,反映了树上物种或基因的时间顺序 ;一般采用外群定根法,建树时引入亲源关系较远的物种作为外群来定根

进化树的格式

Newick format

  • 带有自展值和分支长度的树:
    ((A:0.1,(B:0.1,C:0.1)90:0.1)98:0.3,D:0.3);
    – A, B, C ,D: 物种名/基因名
    – 0.1, 0.3 : 分支长度
    – 90,98 : 自展值

  • 具有内部节点ID的树:
    ((A:0.1,(B:0.1,C:0.1)INT1:0.1[90])INT2:0.3[98],D:0.3);
    – A, B, C,D : 物种名/基因名
    – INT1, INT2 :内部节点 IDs
    – 0.1, 0.3 : 分支长度
    – 90,98 : 自展值


The New Hampshire X Format (NHX)

和Newick格式相比多了一个[ ]中的注释内容(贝叶斯软件)


Nexus format

  • 每个区块以BEGIN block_name开始;以END结束。
  • 基本组成
    – TAXA block: TAXA区块包含关于分类群的信息
    – DATA block:数据块包含数据矩阵 (如:多序列比对).
    – TREES block: TREES区块包含使用Newick格式描述的系统发育树


建树过程

准备比对序列(核酸/氨基酸)→多序列全局比对(muscle/mafft)→构建进化树(NJ/ML/bayes)→进化树展示(ITOL/Evolview)

多序列比对

序列比对:根据特定的计分规则,通过一定的算法对两条或者多条DNA或蛋白序列进行比较,找出他们之间最优匹配或者最大相似度匹配。分为全局比对和局部比对两种方式。 多序列比对即全局比对,目的是对两条及以上序列全长进行比对,基于全长序列获得最优比对结果。


多序列比对算法

多序列全局比对算法主要以Clustal算法为代表,基本思路是利用动态规划算法。

  1. 对所有序列进行两两比对分析,计算相似性
  2. 基于两两比对结果,进行聚类分析,产生比对次序(一般用二叉树表示)
  3. 根据排序,从相似性最好的两条序列开始,逐个比对直至结束。

    比对结果格式
    fasta格式

phylip格式


常用的建树方法

基于距离

最简单的计算方法就是就两条序列间不一致的核酸或氨基酸的比例(P距离)不考虑回复替换或者多重替换


  • 核酸替换


  • 距离矫正
    1.Jukes-Cantor model(JC69):假设所有碱基的transition rates和equilibrium frequencies相等



    2.Kimura 80 model(K80):其中,S和V分别是具有transitional和transversional的位点的比例。


  • 核酸替换模型和氨基酸替换模型
    1.核酸替换模型
    JC69、K80、F81、HKY85、GTR(REV)等
    2.氨基酸替换模型
    DAYHOFF、JTT、WAG等

  • 非加权算数平均对群法UPGMA
    UPGMA(unweighted pair-group method using an arithmetic average,非加权组平均法,非加权算数平均对群法)将类间距离定义为两个类的成员所有成对距离的平均值 .
    UPGMA 法包含这样的假定:沿着树的所有分枝突变率为常数。
    所以UPGMA 法更容易得到错误的树
  • 邻接法Neighbor-joining
    邻接法(Neighbor-joining Method): 该方法通过确定距离最近(相邻)的成对分类单位来使系统树的总距离达到最小。 相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(node)相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。


基于特征性状

  • 最大简约法(MP)——最小变化数(祖先状态最小化)
    对每种可能的拓扑结构计算最小变更数目,变更数目最少的树为最大简约树
    长枝吸引:简约法估计的树趋向于将2个长枝聚合在一起,这种现象称为长枝吸引。这是由于简约法不能对平行和回复突变进行校正导致的


  • 最大似然法(ML)——所有枝长和模型参数最优化
    似然值:给定树的拓扑结构、分枝长度、模型及相关参数后,观测得到序列数据的概率
    最大似然法:计算得到使似然值最大的进化树及相关参数


概率函数为对已灭绝祖先的所有核苷酸组合可能性求和

  • 贝叶斯推断——基于后验概率(用枝长和后验概率联合计算)
    给定序列数据条件下,计算进化树拓扑结构、分枝长度值、模型参数值的后验概率分布;然后根据概率分布确定进化树及相关参数


建树方法的选择

根据多序列比对的结果,如果有极高的序列相似性就选最大简约法(MP),相似性还行就选NJ法,剩下就选ML或者贝叶斯


自展值

自展检验,用来检验所计算的进化树分支可信度。
方法:序列长度为 m 时,从原始 m 个位点进行有返回抽样所得每一序列在 m 个位点的那些碱基得到Bootstrap 样本。抽取100/500/1000个Bootstrap样本,每一 Bootstrap 样本使用相同方法构树,检查原始树的分枝在bootstrap样本构的树中出现的次数,计算比例。

常用的建树软件

最好用的是MEGA、RAxML、fasttree、IQ-tree


树的展示和美化

MEGA: https://www.megasoftware.net/
Figtree: http://tree.bio.ed.ac.uk/software/figtree/
iTOL: https://itol.embl.de/
EvolView:https://www.bio.tools/evolview#

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容