序列比对作为生物信息学基础中的基础,可以说是一切后续生信分析的基础,没有比对后续分析便无法进行。
那么给定两条序列,我们如何评估他们的相似度呢?这便是此处要探讨的问题。
1、序列比对中的基本概念
给定两条蛋白序列进行比对,结果如下图:
在左下方蛋白比对结果中可以看见两条蛋白序列的详细比对情况,其中
| 表示此处的两个氨基酸相同
: 表示两个残基较为相似
. 表示两个残基相似度较小
- 则表示此处比对上了一个gap
左上方可以看到比对的一些相关信息,如序列名称,替换矩阵(matrix),空位罚分值(Gap_penalty,此处空位罚分值为10),Extend_penalty(连续空位罚分)0.5,也即如果有连续的n个gap,则其罚分值为:10+(n-1)*0.5。下面的score表示这对序列比对的得分值,其等于碱基替换得分(依据右上方替换矩阵查得)减去空位罚分值。
2、替换矩阵
替换矩阵(上图右上方)用来表示各个配对残基间的相似度。序列比对的总分中的替换得分就是从这里查得。
从图中也可以看出替换矩阵的两条重要性质:
1、对称性(Symmetry),替换矩阵是关于对角线对称的,因此图中只给出了下半部分。
2、上下文无关(context-insentive),即残基替换得分值与残基所在位置和前后序列无关,只与替换的两个残基相关。
参考:北京大学公开课——生物信息学: 导论与方法