【生信课程】04-分子进化与系统发生-山东大学-生物信息学

分子进化与系统发生

进化的故事:拉马克与用进废退

拉马提出进废退理论。他说生物经常使用的器官会逐渐发达,不经常使用的器官会逐渐退化。而且这种后天获得的性状是可以遗传的,因此生物可以把后天锻炼的成果遗传给下一代。拉马克举了长颈鹿的例子。


image.png

反对
拉马克主义提出后,生物界支持声和反对声此起彼伏。先来听听反对他的声音。德国科学家魏斯曼做了一个实验。他把老鼠的尾巴都切断,之后再让没有尾巴的老鼠互相交配,生出的下一代老鼠依然是有尾巴的。然后再把子代老鼠的尾巴切断之后交配,生出的下一代老鼠依然是有尾巴的。实验一直重复至第 21 代,但是老鼠的尾巴依然长长的,一点儿都没短。于是魏斯曼说拉马克是错的!

image.png

支持
再来听听支持的声音。水生的雄蟾蜍都有一个黑色的趾垫,而陆生的没有。奥地利科学家卡姆梅勒,强迫陆生的产婆蟾在水中生活。繁殖了几代之后就绝种了。但是在绝种之前,产婆蟾的雄蟾蜍据称是长出了黑色的指垫,而且水中生活的这几代,趾垫越来越明显。


进化的故事:达尔文与自然选择

达尔文认为“物竞天择”意味着,存在一种最初的生物,之后通过某种方式得到了改良。如果环境对你施加压力,压力有可能是捕食者的威胁或类似的情况,那些通过某种手段生存下来,并且繁衍后代的生物,他们的后代也能生存下来,并且继续繁衍生息。因此,如今我们所见到的动植物都拥有很强的适应性。


基本概念:如何研究进化

分子水平是指 DNA、RNA、以及蛋白质序列。


image.png

基本概念:不同的同源

同源(Homologs),相同来源。
它的确切定义是,来源于共同祖先的相似序列为同源序列。
也就是说,相似序列有两种,一种是来源于共同祖先的,那么他们可以叫同源,另一种不是来源于共同祖先的,那么他们尽管相似也不能叫同源。

第二种情况出现的概率虽然低,但还是存在的,所以相似序列并不一定是同源序列。

同源又分为三种,直系同源,旁系同源和异同源。

直系同源(Orthologs)
是指,来自于不同物种的由垂直家系,也就是物种形成,进化而来的基因,并且典型的保留与原始基因相同的功能。也就是说,随着进化分支,一个基因进入了不同的物种,并保留了原有功能。这时,不同物种中的这个基因就属于直系同源。

旁系同源(Paralogs)
是指在同一物种中的来源于基因复制的基因,可能会进化出新的但与原功能相关的功能来。
基因复制产生了两个重复的基因,多出来的这个有几种命运,一个是又丢了。复制出来发现没有用,又删了。另一种命运是演化出了新的功能。
如果这个新功能是往好的方向发展,就会被保留下了,如果是往不好的方面发展,就会被自然选择淘汰。
还有一种命运,就是被放置不用。复制出来以后,又加了个终止子,既不表达,也不删除,搁那里搁着不管,成了伪基因。
被保留下来的具有新功能的基因与另一个复制出来的基因之间就是旁系同源。

异同源(Xenologs)
是指通过水平基因转移,来源于共生或病毒侵染所产生的相似基因。
异同源的产生不是垂直进化而来的,也不是平行复制产生的,而是由于原核生物与真核生物的接触,比如病毒感染,在跨度巨大的物种间跳跃转移产生的。

image.png
image.png

基本概念:“树状”还是“网状”

在计算机科学领域,树的定义规定,树上从一个点到另一个点的路径只有唯一的一条。而当两点之间的路径个数≥2 的时候,就形成了网。

编织生命网的要素之一就是水平基因转移。水平基因转移,是指生物将遗传物质传递给其他细胞而非其
子代细胞的过程。

image.png

系统发生树:系统发生树的样子

研究分子进化所要构建的系统发生树(Phylogenetic tree),也叫分子树。


image.png

树是从根(root)长出来的。从根延伸出的树枝就叫枝(branch/lineage)。枝上有分叉,分叉的地方就叫节(node)。枝的顶端顶着的就是叶(leaf)。根、节和叶都可以叫做节点(node)。但是叶后面不再有枝了,是最外面的节点,所以叫外节点(outer node)。而节的前后都有枝,所以叫内节点(inner node)。根是一切的起源,习惯上就叫根。根和节都表示理论上曾经存在的祖先,叶子是现存的物种。

image.png

形状表示生物学意义都一样。如序列多,用原型,方便paper排版。


image.png

系统发生树:系统发生树的种类

根,它应该是所有叶子的共同祖先。


image.png

外类群(outgroup)来确定,从而把无根树变成有根树。

有根树反映了树上基因或蛋白质进化的时间顺序,通过分析有根树的树枝的长度,可以了解不同的基因或蛋白质以什么方式和速率进化。

而无根树只反映分类单元之间的距离,而不涉及谁是谁的祖先问题。

做有根树需要指定外类群。所谓外类群,就是你所研究的内容之外的一个群。

1998 年,伍斯提出了一个涵盖整个生命界的系统树。


image.png

物种树是基于每个物种整体的进化关系,也就是基于整个基因组构建的,而分子树是基于不同物种里某一个基因或蛋白质序列之间的关系构建的。


image.png

系统发生树的构建

4.4系统发生树的构建

从实用的角度,建议使用最大似然法。因为这种方法无论从速度还是准确度都比较适中。

最近邻居法虽然算得快,但是当序列多,彼此差别小的时候,这种方法不适合。

最大简约法,似乎是个掉空里的方法,高不成低不就,所以很少有人使用。

贝叶斯法不是所有的建树软件都提供,算法开发上还有待提高,而且计算时间过长。

image.png

目前流行的建树软件,PHILIP 和 MEGA,基本能够包括上述所有算法。

软件 说明 网址
PHYLIP 免费的、集成的进化分析工具 http://evolution.genetics.washington.edu/
phylip.html
MEGA 图形化、集成的进化分析工具 http://www.megasoftware.net/
PAUP 商业软件,集成的进化分析工具 http://paup.csit.fsu.edu/
PHYML 最快的 ML 建树工具 http://www.atgc-montpellier.fr/phyml/
MrBayes 基于贝叶斯方法的建树工具 http://mrbayes.csit.fsu.edu/

以非加权分组平均法(UPGMA 法)为例,介绍如何通过计算所有序列两两间的距离,再根据距离远近构建系统发生树。序列两两间的距离可以用双序列比对得出的一致度/相似度代表,或用其他简化值代替。

image.png

经单碱基计算后,AB序列距离最小。按0.5,0.5长度构建AB的的系统发生树。


image.png

将AB看成整体,分别计算C、D的距离。在新表中,最小距离为C、D。按1,1距离进行构建C、D的系统发生树


image.png

将CD与AB进行比较,为3,构建1.5,1.5距离的系统发生树。完成四条序列的建树。

jinhushu
image.png

序列的选取要遵循以下原则:
1)如果 DNA 序列两两间的一致度≥70%,选用 DNA 序列。
因为,如果 DNA 序列都如此相似,它们对应的蛋白质序列会相似到几乎看不出区别。这对于构建系统发生树是不利的。所以这种情况选用 DNA 序列,而不选蛋白质序列。

2)如果 DNA 序列两两间的一致度<70%,DNA 序列和蛋白质序列都可以选用


MEGA7 构建 NJ 树:建树前准备

1)软件免费;
2)软件在默认设置下建树的效果就很好;
3)软件被业界普遍认可,做出结果可以用于文章发表;
4)软件支持多操作系统,而且安装简单。

MEGA7 是完全的图形化界面操作(http://www.megasoftware.net/)。

示例
在接下来的例子里我们要为附件中 TIR.fasta 里的序列构建 NJ 树。
TIR.fasta 里存储了 10 条人的不同 Toll 样受体胞内域的氨基酸序列。只有具有一定亲缘关系,也就是彼此比较相似,但又存在一定差别的序列拿来做多序列比对,或拿来构建系统发生树才有意义。

File输入数据
Align方式打开文件


image.png

成功导入后,排列不整齐

选择“Align”之后,在弹出的 Alignment Explorer窗口上点击 Alignment Align by ClustalW。

MEGA 提供 ClustalW 和 Muscle 两种多序列比对方法。
这里选择熟悉的 ClustalW 方法。弹出窗口询问“Nothing selected for alignment.Select all? (是否要选择所有序列来做多序列比对) ”,选择 OK。

image.png

MEGA 的所有默认参数都不是随便设置的,这些经过反复考量默认设置好的参数保证了 MEGA 傻瓜机全自动档的品质。

所以,当你无从下手的时候,直接点 OK,接受这些默认参数,开始计算多序列比对。


image.png
image.png

Alignment Explorer 窗口上点 Data 》 Export Alignment 》MEGA Format。注意这里一定选 MEGA format 以方便
MEGA 继续加工。其他格式适用于其他软件。

image.png

多序列中,出现最多的字母,为共有序列

点击C按钮,出现保守序列,标黄色

点击V按钮,标黄不保守的列,可以取消打勾淘汰序列,不参与建树


image.png

点击分页,创建分组

点彩色方块,修改为短名字。名字来源于fasta的>标题


image.png

准备工作全部完成。


MEGA7 构建 NJ 树:构建 NJ 树

选 Neighbor Joining(最近邻居法)

image.png

点击yes,是使用TIR.meg的数据。

参数设置,影响树的构造,一般默认建树后,重新调整参数,让树更美观。

image.png

第一个参数:
Test of Pylogery 建树的检验方法设置,默认为不进行检验,检验方法,可以选常用的 Bootstrap method(步长检验)
并设置检验的倍数,通常设为500。

步长检验是根据所选的建树方法,计算并绘制指定次数株系统发生树。因为大多数建树方法的核心算法都是统计概率模型,所以每次计算出的树都会有所差别。而建好的系统发生树上每个节点上都会标记一个数字,它代表了指定次数次计算所得出的系统发生树中有百分之多少棵树都含有这一节点。一般来说,绝大多数节点上的数值都大于 70%的树才可信。个别低于 70%的节点可以暂且容忍,或通过添加,删减序列来改善质量。

第二个参数:
Substitution Model。它是选择计算遗传距离时使用的计算模型。理论上应该尝试各种模型,根据检验结果选择最合适的模型进行计算。但在实际操作中,可先尝试选用较简单的距离模型,比如 p-distance。

第三个参数是 Gap/Missing Data Treatment。
大多数建树方法会要求删除多序列比对中含有空位的列。但是根据遗传距离度量方法的不同,删除原则也不同。如果是以序列间不同残基的个数来度量遗传距离的话,这里需要选择 Complete deletion(全部删除)。如果是其他方
法,比如这里选用的 NJ 方法,可以选择 Partial deletion(部分删除)。删除程度定在 50%,即,保留一半含有空位的列。

按compute,开始计算系统发生树。


image.png

这个窗口里有两个标签页。
第一个是 Original Tree(原始树),
第二个是 Bootstrap consensus tree(步长检验合并出来的树)。

当前构
建的这株系统发生树中,绝大多数节点处的数值都是≥70 的,所以这株树整体上是可信的。

Original Tree 是步长检验构建的 500 株树中的一株,未经过多棵树合并,所以树枝的长短可以精确代表遗传距离。

比如,TLR5 似乎脱离了CM 组,成为了外类群,从而确定了树根。


image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容