文献时间
2000.5
摘要
已经通过测序知道,生物学核心功能的相关基因是共享的,其对应蛋白质的功能在物种之间也有很高的相似度。Gene Ontology Consortium的目的是建立一个动态可控的功能,基因(蛋白)对应表。有三个独立的ontologies:生物过程(biological process),分子功能(molecular function)和细胞组分(cellular component)。
曾经生物学家用蛋白质的各种活动和丰富度来表征蛋白,遗传学家用基因的突变现象来描述基因,如今所有生物学家意识到基因和蛋白可能有统一的一个约束。这种观念的形成,推动生物学向同一的方向发展。但是,虽然新观念出现了,但是因为基因命名系统的不一致性却不便于对共享基因(蛋白)的描述,因此便促使Gene Ontology Consortium的形成。
需要一种通用的描述语言来描述这些保守的功能
真核模式生物的对比结果显示,同源性广泛存在,而且这些基因大部分都与真核生物的关键生物过程比如:DNA复制,转录和代谢相关。随着更多真核生物全基因组的获得同源性会得到进一步的推广。
这个特点带来的机遇有:可以通过容易进行实验的个体来研究同源性的基因和蛋白,从而推断不易进行实验的同源蛋白功能,进一步应用,比如人类健康医疗。带来的挑战有:需要一定水平的计算对比资源和方法。
动态的基因同源
GO Consortium由多个物种的数据库组成,并且不断的扩大。目的是建立一个结构化,定义精确,通用,可控的对照表,来描述物种内基因和基因产物的作用。标准的索引方法不够实用,而且不能自动转换。GO中的每一个结点都会链接到其他类型的数据库,如SwissPROT,Gen-Bank,EMBL等。因为生物基因和蛋白的功能信息复杂而且变化迅速。
对于将酶分类系统(EC)应用到这里,虽然分类计算简单但是,对应功能并没有很好的定义,也没有关于蛋白之间相互作用的描述。为了定义功能,GO分了三个方面来描述。
三种类型的GO
- 生物过程(BP)
生物过程就是指基因或者基因产物参与的生物过程。一个过程由一个或多个有序的分子功能来组成。过程往往包括物理或者化学的反映过程,一些底物转化为产物。宽泛(高级)的生物过程比如:细胞生长和维持(cell growth and maintenance)或者信号转导(signal
transduction)。更加具体(低级)的生物过程比如:翻译(translation),嘧啶代谢(pyrimidine metabolism)或者cAMP生物合成(cAMP biosynthesis)。 - 分子功能(MF)
分子功能就是指基因产物的生化活动,包括与特定配体或结构的结合。它只描述完成的事情,而不在乎何时,何地进行的。宽泛(高级)的分子功能比如:酶(enzyme),转运(transporter)或者配体(ligand)。具体(低级)的分子功能比如:腺苷酸环化酶(adenylate cyclase)或者Toll受体配体(Toll receptor ligand)。 - 细胞组成(CC)
细胞组成指基因的产物在细胞的哪个位置展现活性。这个术语反映我们对真核细胞结构的理解。例如:核糖体(ribosome)或蛋白酶体(proteasome)。
Ontology包括一组明确定义的术语,具有明确定义的关系。 结构本身反映了当前生物学知识的表现形式,也是组织新数据的指南。 根据可用信息的数量和完整性,可以将数据注释到不同的级别。 这种灵活性还允许用户缩小或扩大查询的重点。
计算机科学家们在不断发展各种对照表的构架,我们希望同源性能够作为一个完善的数据集来对其进行测试。
基因和这三种注释之间是相互独立的,可能存在一个基因或基因产物对应多个注释的情况(很多),这也符合生物的特性。
ontologies为通用的真核细胞开发,不含有特定的器官,当与一些解剖数据相关时,会发生完全的整合。GO terms通过连接形成一个有向无环的网络,区分术语之间的父类子类,并且动态更新。