来源:Quanta杂志
撰文:薇薇安·凯莉(Viviane Callier)
编译:叶子
物种演化出新基因的同时,新性状往往也会同步诞生,“新基因是如何出现的”始终是进化生物学领域的一大未解之谜。
过去半个多世纪以来,大多数生物学家都赞同遗传学家大野干在1970年发表的著作《基因重复造成的演化》中所做的总结。尽管他承认第一批基因肯定有自己的来源,但他在书中写道:“但从严格意义来说,进化中没有什么东西是重新凭空出现的,每个新基因都一定来自某个现存的基因……”
这种解释似乎很站得住脚,因为如果真的存在全新基因,它们只能从基因之间的“非遗传性”DNA(常被称作垃圾DNA)着手,但很难想象这一过程要如何发生。一个细胞是否健康,一般取决于基因网络能否顺畅运作。
这些基因之间的合作已经持续了成百上千万年,从其它基因衍生而来的新基因融入这套网络中的可能性更大一些。而相比之下,全新基因的转录信息较为随机无序,可能会对细胞造成损害,随机序列对细胞的影响多半有害无益。
但在过去15年间,科学家发现了越来越多全新基因存在的迹象,因此讨论的内容也从“全新基因是否存在”转向了“全新基因对进化和适应的贡献有多大”。
近期开展了的一系列研究试图量化全新基因在各类生物体内出现的概率,估测结果有高有低,但研究结果显示,在许多刚出现不久、或刚刚出现的新基因中,全新基因与大野干描述的基因几乎各占一半,前者有时甚至还要更加常见。
全新基因“代表了一种前所未有的、或者说无与伦比的基因新奇性,对进化生物学家来说,这是一种非常令人激动的可能性。
孤儿基因是如何形成的?
每种物种体内的大多数基因都能在其它至少一种物种身上找到。这些基因之间可能存在一些细微差别,但相似度极高,很容易看出它们之间存在关联,并且这种关联往往来自生物进化。随机变异会使基因序列之间的区别逐渐加大,但这些同源基因仍然可以被归于一类。例如,人类和其它哺乳动物体内的血红蛋白分子尽管略有不同,但对应的基因都属于同一家族。
遗传学家曽提出,具有新功能的基因的诞生过程可以用“分歧机制”来解释,新基因可以通过旧基因复制产生,后期再发生变异,导致两种同源基因的功能和序列之间出现分歧。
但随着研究人员掌握了完整的基因组信息,科学家在研究过程中发现,这张“拼图”似乎仍有一些碎片尚未补齐。有些“孤儿基因”好像另成一派,找不到明显的祖先或表亲。这些孤儿基因的来源自然成了科学家们研究的重点。
许多人认为,这是“分歧机制”理论被发扬到极致的表现,新基因与原基因的分歧已经大到了认不出其来源的地步。孤儿基因的序列可能进化得过快或过久,已经失去了与原基因家族的相似之处。
例如,孤儿基因可能从细菌或病毒的全部或部分基因水平转移而来,但复杂生物体内找到的孤儿基因似乎极少来自于细菌。从理论上来说,假如某个基因在其它种系中的同源基因碰巧在进化过程中消失了,那么该基因便会变成孤儿基因。此外,“全新基因”也是一种可能性,但该理论自身也存在诸多疑点。
不过,研究人员一直加州大学戴维斯分校的遗传学家在果蝇测试中发现了由非遗传性序列演变而来的基因。于是主题逐渐从“全新基因是否存在”转变成了“全新基因有多常见。”
过去十年来,对于全新基因的和分歧机制的相对意义,研究人员们一直争论不休。但研究孤儿基因及其由来至今仍然困难重重。这一领域存在诸多障碍,因为你无法确定有多少基因是真正的全新基因,也不知道该现象的意义何在,然后就这么陷入了瓶颈。
位置很关键
为解决这些疑惑,遗传学家一同展开研究,试图量化果蝇、酵母和人类基因组中能够用序列分歧解释的孤儿基因的比例。
他们采用了一种全新的分析方法,并在今年2月发表的论文中描述了实验过程。要判断几种基因是否为同源基因,科学家通常会比较它们的核酸序列(或者对应的蛋白质氨基酸序列)。研究团队则另辟蹊径,从每个基因与相邻基因的相对位置入手。该特性被遗传学家称作基因的“共线性”(synteny)。
我们可以用一个比喻来形象的解释这个复杂的研究方法:假设你有一叠排列好的纸牌,然后稍微洗一洗牌。洗完牌后,最上面两张分别为方块9和方块10,第三张翻过去不看,第四张和第五张分别是Q和K。那么你就可以胸有成竹地认为第三张牌是J,因为这几张牌的次序得到完整保留的概率比只有第三张牌发生变动的概率要大。
实验思路也与之类似。在进化过程中,一条染色体上的基因排列顺序大部分都能保留下来。染色体的一些片段可能会发生重大变化,但在这些片段内部,基因的排布则通常会原样保留。
研究人员做了一项保守的猜测:假如一个基因的相邻基因在另一个物种的基因组中也以同样的次序出现,则该基因便等同于另一个物种基因组中夹在两个相邻基因之间的基因,即使次序并不完全匹配,也可以做出这样的推断。
利用这种“共线性法”,研究人员估测,果蝇、酵母和人类基因组中有多达三分之一的孤儿基因都可以用过度分歧来解释。剩下的肯定还要用其它方法来解释,而“全新来源”理论也许是最佳的解释方法。
分歧概率
遗传学家韦斯曼则采用了一种略微不同的方法来研究同一个问题。他们的研究结果近期发表在了论文预印网站biorxiv上,并已经提交给一份期刊、进行同行评审。“我们要弄清的问题是,如果我在某种生物、或某个生物类群之外找不到某个基因的同源基因,究竟是因为我没有检测到,还是因为它根本不存在同源基因呢?”韦斯曼指出。
为弄清这个问题,她研究了几种具有亲缘关系的酵母和果蝇品种,对基因家族中的累积变异率进行了估测,然后便可通过统计学分析某个品种的某个基因的同源基因是否能在其“远亲”品种身上找到。
据估测,这些酵母中有55%至73%的孤儿基因可以由基因分歧机制解释,这一比例比之前的研究结果还要高。尽管研究方法不同,但都得出了相同的结论:“这些基因中的确有一部分来自过度分歧,无论比例是30%、50%还是80%,对想研究孤儿基因的科学家来说,这都是一个显而易见的问题。”
关于孤儿基因的起源,两种研究结论大致相同,只不过一个更侧重全新基因、另一个更侧重过度分歧产生的基因。“一篇论文说‘杯子里装了一半的水’,另一篇则说‘杯子有一半是空的’。”
考虑到孤儿基因的起源混杂不一,最好将刚形成不久的新基因作为全新基因的研究重点。如果某个全新基因是最近刚形成的,就应当仍能在其演变而来的物种基因组中识别出对应的非遗传性序列,这可以作为该孤儿基因的确是全新基因的证据。
功能是如何出现的
2019年,芝加哥大学遗传学家龙漫远对亚洲水稻基因组中新形成的全新基因展开了研究。他和同事们识别出了175个在过去340万年间形成的全新基因。他们可以判断出这些基因属于全新基因,因为在近亲物种中仍能找到对应的非遗传性序列。这些全新基因似乎具有生物活性,即可以转录成RNA、再翻译成肽链,并且其中大多数都表现出了经过自然选择塑造的迹象。
龙漫远的研究证实了全新基因的确相对普遍、并且具有重要功能。但仍未回答“非遗传性序列如何变成具有功能性的基因”这一问题。对此,2012年《自然》期刊上曽发表的一篇论文中提出过一种名叫“原基因”( proto-gene)的假设:这些基因最初可能是DNA上的一部分,其对应的RNA和蛋白质产物起初不具备任何功能。但在适当的环境条件下,这些原基因可以为生物体带来一些优势,从此在自然选择的作用下开始进化。
很多遗传学家试图通过实验来验证这一假设。首先,他们利用计算机找出了酵母基因组中似乎符合原基因定义(在进化尺度上较为年轻,能够活跃转录、但不会生成功能性蛋白质的基因)的DNA序列,然后看看将这些序列删除或过度表达后,酵母的健康情况如何。
删除这些原基因序列似乎不会造成什么伤害,这点很说得通,毕竟它们对酵母的健康没做什么贡献。但令研究人员吃惊的是,当10%的原基因序列过度表达时,酵母菌落的增长速度竟然有所增加。事实上,过度表达原基因序列往往比过度表达功能性基因更加有益(因为进化已经为功能性基因预设好了最佳表达水平),没想到这些随机序列竟然有这么大的潜力。
这些结果说明原基因具有很大的适应潜力。虽然它们的影响还不太清楚,但可能会从多种方面为细胞做贡献。如果这些随机序列逐渐进化成了功能性基因,它们的潜力就会渐渐显露出来。
研究人员还观察到,这些有益的原基因序列有一点相同之处:由这些基因翻译而来的蛋白质产物一般都有使其能够停留在细胞膜或细胞器膜表面的结构域。研究人员正在针对这一点展开调查。
虽然他们的研究体现了全新基因的适应潜力,但全新基因对生物适应能力的真正影响也许将永远“谜团重重”。随着全新基因的累积变异越来越多,想判断它们来自何种非遗传性序列也会越来越难。达到一定时限后,也许就无法证明某个古老的基因其实曾经是全新基因了。因此,要想确定全新基因的真正数量、以及它们对大多数复杂生物适应能力的影响,将是一个极为棘手的问题。
但孤儿基因无论起源如何,其生物学机制都值得我们一探究竟,对那些分歧速度在某个时间点上突然加快的基因来说尤其如此,因为这些基因或许能帮助我们弄清新生物学功能是如何进化而来的。
我们现在知道孤儿基因有多种诞生机制,但为何有些生物学过程更容易促成全新基因的进化、有些则更容易促成基因的复制和分歧?对此,我们仍然毫无头绪。除了全新基因的确存在、且似乎普遍存在之外,这一领域还没有什么结论是板上钉钉的。情况还在不断变化。年复一年,我们掌握的信息也会越来越多。