Wiki
在生物学中,hypothetical protein是这样一种蛋白,其存在已经被预测,但是缺乏体内表达的实验证据。基因组测序预测了众多的开放阅读框(open reading frame)但其功能仍然未知。这些蛋白质,无论是孤儿还是保守的假设蛋白质,占每个新测序基因组中编码的蛋白质的约20%至40%。虽然像微阵列或质谱这样的技术可以确定gene是表达的,但是因为其与具有注释生化功能的蛋白质序列缺乏同一性,因此难以赋予其功能。
如今,大多数蛋白质序列是从基因组DNA测序的计算分析推断而来的。假设蛋白是在基因组分析过程中由基因预测软件产生。生物信息学工具在基因鉴定过程中,发现一个大的ORF,而这个ORF在蛋白质数据库中并没有同源序列,那么它就会把这个序列归为“hypothetical protein”。
假设蛋白质的功能可以通过域同源性(domain homology)搜索来进行预测,并且这种预测有不同的期望值。通过把hypothetical protein与已知的家族domains进行比较,可以获得保守结构域,进而可以把这些假设蛋白归类到某一蛋白质家族中,即使它们还没有被体内实验证实。
hypothetical protein的功能也可以通过同源建模进行预测,在这种预测中,假设蛋白要与已知三维结构的蛋白序列进行对齐,并且,通过这种方法,如果结构被预测,那么假设蛋白的功能也可以由计算来确定。此外,注释假设蛋白功能的方法包括通过
结构基因组学方法对这些蛋白进行三维结构确定,理解辅基/金属结合的本质和模式,与已知功能和已注释的可能的催化位点和调节位点的蛋白的折叠相似性等。通过筛选各种底物进行生化功能评估的结构预测方法是注释假设蛋白功能的另一种有前景的方法。