eLife | 密码子重新分配进化轨迹:25万个基因组迄今最大筛查
原创 图灵基因 图灵基因 今天
收录于话题#前沿生物大数据分析
在迄今为止最大的可供选择的遗传密码筛选中,一个名为Codetta的计算机程序扫描了来自细菌和古细菌的250000多个基因组序列,以识别五个以前从未见过的遗传密码。
这项工作发表在《eLife》上的一篇题为“A computational screen for alternative genetic codes in over 250,000 genomes”的论文中。
在大部分生命之树中,遗传密码是通用的。但是,科学家们发现了一些例外情况,即在某些生物体中存在替代遗传密码,这表明这些密码在某种程度上可以进化。如果没有对许多基因组进行全面研究,就很难得出关于密码子重新分配进化轨迹的一般结论。
现在,Sean Eddy博士实验室的研究生、哈佛大学分子和细胞生物学及应用数学教授、Howard Hughes医学研究员Yekaterina(Kate)Shulgina开发了一种研究大量基因组的方法。
Codetta是一种从核苷酸序列数据预测每个密码子的氨基酸解码的计算方法。到目前为止,科学家们使用类似的程序已经能够分析数百个基因组序列。Codetta大大提高了科学家的密码破解能力,让该团队系统地筛选几乎所有已知的细菌和古细菌——超过250000个基因组——以寻找新的遗传密码。
没有参与这项研究的都柏林大学学院的进化遗传学家Ken Wolfe, FRS MRIA说,这种新方法比以前的研究更快、更严格、更全面。“他们研究了每一个适用于细菌和古细菌的基因组,基本上是所有存在的数据。”
通过对GenBank中超过250000个细菌和古细菌基因组序列的遗传密码进行研究,Shulgina和Eddy发现了五种新的精氨酸密码子的重新分配(AGG、CGA和CGG),代表了细菌中的第一个有义密码子变化。Eddy说,Shulgina的新代码“直接进入了教科书”。
Codetta读取基因组,然后进入已知蛋白质数据库,计算可能的遗传密码。“我的方法利用了一个事实,即人们对蛋白质的预期外观有很多了解。”研究人员说。该程序可以利用这些信息来确定特定基因组序列中的哪些三个字母组对应于哪几种氨基酸。
他们的分析发现了一些惊喜。该团队发现了五个氨基酸精氨酸的代码被重新分配给不同氨基酸的情况。这一结果是科学家们第一次在细菌中看到这种变化。Shulgina说,最大的问题是为什么精氨酸的编码会如此频繁地改变。这可能暗示了形成新密码的进化力量。
作者写道,在一个未经培养的细菌分支中,“AGG的重新分配成为主要的蛋氨酸密码子可能是由精氨酸tRNA的氨基酸电荷变化进化而来的。在GC含量较低的基因组中发现了CGA和/或CGG的重新分配,这是一种进化力量,可能有助于将这些密码子驱动到低频并使其重新分配。”
这项工作的实际意义是立竿见影的:科学家们使用可免费获得的Codetta,将能够正确预测生物体正在制造哪些蛋白质。但该计划也可能会解锁更广泛的生物学见解。
发掘生命王国中使用的全套遗传密码可能会解开一个长期存在的生物学谜团:生物体如何完全改变其遗传密码。“有各种各样的理论,但它仍然是一个真正的谜。”研究人员说,“这怎么可能发生?”
Shulgina和Eddy现在正在寻找更多的新代码。由于它们往往出现在较小的基因组中,研究小组计划将Codetta释放到病毒和线粒体及叶绿体等细胞隔室中。研究人员说:“这将是一个富饶的狩猎场。”