开放阅读框对于基因的发现至关重要,但是目前有关orf的分子生物学定义至少有三种。在分子生物学和生物信息学领域,orf的最佳定义为:由终止密码子与终止密码子所包围的碱基片段(stop/stop codons) [1]。
ORF是分子生物学和生物信息学中的一个基础概念。ORFs的检测是在基因组序列中发现特定蛋白质编码基因的重要一步。orf中的o,或者说open,是指完整基因中用于蛋白质翻译的“开放”区域;而rf,也即reading frame,是指双链基因序列翻译至氨基酸时的6种可能性之一。
ORF的三种定义
定义1:一个ORF是指一段能够被3整除的序列,并且包含起始密码子和1个终止密码子(start/stop)。
定义2:一个ORF是指一段能够被3整除的序列,以终止密码子为头尾(stop/stop)。
定义3:一个ORF是指一段被受体和供体的剪切位点所分隔的序列。
至于为何要选择定义2作为生信领域的最佳选择,请移步文末所列的参考文献[1],有详细的解释。
orf与基因的关系
orf是完整基因序列的一部分,一个完整基因包括orf序列以及非编码序列。orf可作为一个潜在蛋白质编码基因的指示器,但是预测的orf并不一定是基因。例如,一个典型的细菌基因组中已注释基因的数目远低于ORFs数目,前者约103至104,而后者可达到104至105 [2]。很好理解,毕竟ORFs的数目只是统计的潜在的编码基因数目,stop codon与stop codon所包含的区域并不一定能对应已知基因,因此ORFs相较于已知注释基因会更多。
参考文献
[1] Sieber, P., Platzer, M., Schuster, S. 2018. The Definition of Open Reading Frame Revisited. Trends in Genetics, 34(3), 167-170.
[2] Mir, K., Neuhaus, K., Scherer, S., Bossert, M., Schober, S. 2012. Predicting Statistical Properties of Open Reading Frames in Bacterial Genomes. Plos One, 7(9)
未经许可,请勿转载。
仅供参考。