【现学现卖】序列比对之identity VS similarity

今天对次生代谢产物基因簇(BGCs)的氨基酸序列比对的时候,看到结果文件里有%identity和%similarity两类输出结果。

上次比较了标准差和标准误(【现学现卖】标准差VS标准误),这次看看这两个概念——一致度(identity)相似性(similarity)

%identity指的是两条碱基序列或者两条氨基酸序列的相同比对长度中,对应位置上相同残基的数目占总长度的百分数。

比如上面的一段长131的氨基酸序列,完全对应的绿色部分占总长的95%。

%similarity指的是对应位置上相同和相似的参基占总数的百分数。

对于上面的不完全匹配的氨基酸残基,存在氨基酸保守性替换,所以虽然不是完全一致,但是相似性为100%。

一般用相似性和一致性推测两个序列的同源性 (好像identity>30%,similarity>50%可以说是同源的,没有查到明确的量化指标,可能也需要根据基因、蛋白质功能进一步确认吧)。

同源性(homology)是一个进化学上的概念,没有程度,只有同源或者不同源。所以说两个序列95%同源,或者高度同源都是不恰当的。

PS. 对于微生物中次生代谢产物基因簇分析,注意比对core biosynthesis genes的相似度。因为基因簇中有很多基因,主要的合成基因和一些调控基因等。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。