“25%的同源性”这种说法是不科学的,如果要引入同源性,那么需要考虑序列长度、时间和突变速率。
同源性(homology)、相似性(similarity)、一致性(identity)这三个概念是极易混淆的,三者蕴含的意思有相关联的地方也有明显的不同之处,它们是不一样的。
同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。
相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。
当两条序列同源时,它们的氨基酸或核苷酸序列通常有显著的一致性(identity)。如果两条序列有一个共同的进化祖先,那么它们是同源的,这里不存在同源性(homology)的程度问题,两条序列要么是同源的要么是不同源的。
Similarity does not imply homology!(相似不代表同源); Non-homology cannot from non-similarity.(但不同源肯定不会相似); Do not use the term “percent homology”. (不要用百分之多少同源性)
总结:
1、一般情况下,我们的序列是论述A这个基因的同源性,所以比较的对象是DNA或者蛋白质序列。要注意文献说的是物种、个体、还是序列。
2、同源性大部分情况十足是一个推论,记住是一个推论,我们观察不到。我们能观察到的是相似性和一致性。同源性的结果就是要么同源,要么非同源,而且要在一定的时间尺度下,同时要推断进化速率。
3、当相似程度高于50%时,比较容易得到两条序列可能是在一个比较近的时间段内是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其在特定时间段内是否具有同源性。当然还要综合突变速率和长度。总之进化推断是个比较难的统计问题,很难给出确切的定论。
4、所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应该避免使用。
或者如果你不做进化,那就干脆直接说比较对象的相似性吧。不要扯上同源性,让进化研究者去推断。你就说一个相似性,序列保守性就好了,这是你直接观察到的现象啊。