匹配/不匹配矩阵(match/mismatch matrices)
这种匹配方式简单粗暴,就是对匹配成功的核苷酸对/氨基酸对赋予一个固定的正值,不匹配的赋予一个固定的负值。但是这种方法在氨基酸序列比对中存在明显弊端——其忽略了氨基酸之间存在物理/化学性质的相似性(图1),比如色氨酸、苯丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丙氨酸和蛋氨酸(甲硫氨酸)都为疏水性氨基酸。具有同样理化性质的氨基酸更有可能在进化进程中发生替换(substitution)。
PAM矩阵
PAM矩阵(point accepted mutation matrix)由Margaret Dayhoff等人于1978年提出,用来判断两个蛋白质序列相似性。1个PAM(PAM-1)代表平均1%的氨基酸被替换。
BLOSUM矩阵
BLOSUM矩阵(blocks amino acid substitution matrices)是随后发展出的另外一套比对打分方法,它是从BLOCKS数据库中选取具有良好保守型的蛋白家族,从中统计氨基酸发生替换的相对频率和概率所构成的矩阵(block-sum)*。BLOSUM-62表示相似度为62%的序列。和PAM矩阵不同,BLOSUM-n的n值越大,表示序列相似度越高。
要点归纳
1. BLOSUM数值越高,序列相似度越高;PAM数值越低,序列相似度越高。
2. 如何选择打分矩阵?
未知信息的情况下,BLOSUM62是最好的选择。BLAST的默认矩阵也是BLOSUM62。
已知信息的情况下,如果关系较近,则采用高BLOSUM矩阵,比如BLOSUM80,也可以采用低PAM矩阵,比如PAM1;如果关系较远,采用低BLOSUM矩阵,比如BLOSUM45,或高PAM矩阵,比如PAM250。
思考
不知道大家是否会有一个疑惑,既然PAM-1表示1%的替换,那么PAM-100不是表示100%的替换吗?怎么还会有PAM-250呢?
参考资料
1. Substitution Matrices (DOI:10.1002/9780470015902.a0005265.pub2)
2. * 百度百科