系统 发育树

定义

系统发育进化树 (Phylogenetic tree): 一般也叫系统进化树,进化树。它可以利用树状分支图形来表示各物种或基因间的亲缘关系。一般研究对象是碱基序列或氨基酸序列,通过数理统计算法来计算生物间进化关系。最后,根据计算结果,可视化为系统进化树。

构成

image.png

分类

根据是否指定了根节点,系统进化树可以分为有根树和无根树。
有根树指定了根节点,树中可以看出各个节点的距离和祖先节点以后各个分枝分化的先后关系,因此可以用于分化时间的推断;一般选择所研究的材料的最近的共同近缘种作为外群。
无根树没有指定祖先节点,只能看出各个节点的拓扑结构和相对距离。


image.png

进化树评估

  1. Bootstrap检验
    对于进化树评估一般会使用 Bootstrap 进行检验。

Bootstrap检验,自举法检验,也叫自展,自助法。其实就是放回式抽样统计法的一种,通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

  1. 重复取样值
    那么重复取样的次数会在建树时设置,现在一般文章要求Bootstrap 取样值 >1000。

  2. Bootstrap value 阈值
    虽然根据严格的统计学概念,自展值需要要大于95%才较为可信。

然而在实际应用中,我们一般认为结点的 Bootstrap value > 70,这个分支就是可靠的。特别是微生物等相似度比较大的分类中,一般大于50%就认为可信(小于50%不会显示)。

  1. Bootstrap value 与分支
    如果低 Bootstrap value 更靠近分支末端,代表相似度太高而很难区分

如果低 Bootstrap value 更靠近根,代表相似度太低

建树方法

image.png

一般情况下,若有合适的分子进化模型可供选择,用最大似然法构树获得的结果较好;对于近缘物种序列,通常情况下使用最大简约法;而对于远缘物种序列,一般使用邻接法或最大似然法。对于相似度很低的序列,邻接法往往出现长枝吸引(branch attraction)现象,有时严重干扰进化树的构建。对于各种方法重建进化树的准确性,Hall (2005)认为贝叶斯法最好,其次是最大似然法,然后是最大简约法。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。邻接法和最大似然法是需要选择模型的。蛋白质序列和DNA序列的模型选择是不同的。蛋白质序列的构树模型一般选择Poissoncorrection(泊松修正),而核酸序列的构树模型一般选择Kimura2-parameter (Kimura一2参数)。如果对各种模型的理解并不深入,最好不要使用其他复杂的模型。参数的设置推荐使用缺省的参数。
————————————————
版权声明:本文为CSDN博主「Cccrush」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/cccrush/article/details/90695891
进化树构建的方法原理及检验Cccrush的博客-CSDN博客构建进化树的三种方法

进化树枝长的意义

了解进化树枝长意义之前,首先需要了解系统进化图的种类,不同类型的进化树, 其枝长的意义是不同的。系统发育树一般包括cladogram, phylogram和chronogram。Types of phylogenetic tree diagrams介绍了三者之间的差异。

  1. 首先,cladogram的枝长是没有任何意义的,因此这种图的枝长可以以任何长度形式表示,但是一般情况为了观察和美观都是等长绘制。了解如何如何构建cladogram有助于理解:PDF:https://www.bu.edu/gk12/eric/cladogram.pdf Video(youtube): Link
  2. Chronogram是经过分子钟校订的进化树,因此枝长表示的是时间。
  3. Phylogram(系统发育分析中一般绘制的都是Phylogram)。这里需要考虑的是不同的建树方法得到的枝长意义不一。
  • ML/BI:每个位点的替代数(numbers of substitutions per site)
  • NJ:遗传距离(genetic distance)
  • MP:性状状态变换的步骤数(numbers of character-state changes)


    image.png

基于SNP构建进化树

其实基于SNP进行进化树的构建的过程相当简单,每个样本的每个位点连起来就是一条序列,因为每个样本的SNP数目相同,所以比对这一步就可以直接省去了。
需要准备两个软件:TASSEL(https://bitbucket.org/tasseladmin/tassel-5-standalone/downloads/?tab=tags)和MEGA(http://www.megasoftware.net/
VCF转MEGA格式。用TASSEL打开VCF文件,另存为Phylip格式(Save As — Phylip(Interleaved)),然后用MEGA7把Phylip文件转换成MEGA格式(File — Convert File Format to MEGA — 选择刚才转出的Phylip文件按提示操作存成.meg文件),前两行为文件头信息,无实际意义,但是必有。“#33-16”表示样本编号,与fasta文件的格式不同,mega格式样本的起始不是“>”而是“#”,接下来便是该样本的SNP连接成的序列信息。

image.png

1、mega文件导入:
File — Open A File/Session — 选择要导入的文件,选择数据类型(如果是SNP即为Nuceotide Sequences),提示Protein-coding nucleotide sequence data时,选择No,即不把DNA序列翻译成蛋白序列构建进化树
image.png

2、系统进化树的构建
选Phylogeny选项卡,在可选的方法中选择一种方法进行系统进化树的构建,种内材料一般选择NJ法即可,属内种间或属以上材料可以用ML(maximum likelihood tree)法(ML法计算之前,可进行最优模型的选择:Models — Find Best DNA/Protein Models,使用选出的最优模型进行ML树的构建),下面以NJ法为例进行说明。
参数设置,主要填写Bootstrap值,一般选择500或1000次;Model一般用Kimura 2-parameter Model(K2),如果K2模型运行不了,可以换成p-distance模型;Gaps/Missing Data Treatment选择Partial deletion或者pairwise deletion,选择complete deletion时带有缺失值的标记都会被删除,所以必须谨慎;Site Coverage Cutoff与我们常说的完整度相同,一般填写成我们过滤标记时使用的完整度,上述参数设置完成后,点击compute即可。


image.png

3、进化树的着色
用MEGA完成进化树的构建后,可以将结果保存为nwk格式(File — Export Current Tree(Newick)),保存original树(推荐)时,既输出枝长,又输出bootstrap值,而bootstrap consensus tree则只能输出bootstrap值。
获得nwk格式的进化树后,需要对其进行展示,以便从直观上判断材料间的聚类关系,界面版的MEGA自带简单的展示功能,可以对进化树进行展示,但其功能较为简单,无法满足着色、添加额外信息等较为个性化的要求。从功能的丰富度来说,iTOL(https://itol.embl.de/)、EvolView(http://www.evolgenius.info/evolview/)、ggtree(https://github.com/GuangchuangYu/ggtree)应当是功能较为齐全的软件,其中,ggtree是R软件包,可以在本地操作,但需要编写代码,使用起来并不十分方便。

判断NWK格式是有根树还是无根树

The Newick tree format (washington.edu)

利用SNP数据构建Phylogenetic tree - 知乎 (zhihu.com)
群体结构分析三种常用方法 (下篇) | Universe Biology Girls and Boys
iTOL进化树调图细节记录 - Bioinfarmer - 博客园 (cnblogs.com)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容