序列比对的打分矩阵 | PAM矩阵 v.s. BLOSUM矩阵

匹配/不匹配矩阵(match/mismatch matrices)

这种匹配方式简单粗暴,就是对匹配成功的核苷酸对/氨基酸对赋予一个固定的正值,不匹配的赋予一个固定的负值。但是这种方法在氨基酸序列比对中存在明显弊端——其忽略了氨基酸之间存在物理/化学性质的相似性(图1),比如色氨酸、苯丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丙氨酸和蛋氨酸(甲硫氨酸)都为疏水性氨基酸。具有同样理化性质的氨基酸更有可能在进化进程中发生替换(substitution)。

图1. 20个常见氨基酸的10种生化特性。(Livingstone CD, Barton GJ. Protein sequence alignments: a strategy for the hierarchical analysis of residue conservation. Comput Appl Biosci. 1993 Dec;9(6):745-56. doi: 10.1093/bioinformatics/9.6.745. PMID: 8143162.)

PAM矩阵

PAM矩阵(point accepted mutation matrix)由Margaret Dayhoff等人于1978年提出,用来判断两个蛋白质序列相似性。1个PAM(PAM-1)代表平均1%的氨基酸被替换。

图2. PAM250矩阵。(http://what-when-how.com/molecular-biology/point-accepted-mutation-molecular-biology/)

BLOSUM矩阵

BLOSUM矩阵(blocks amino acid substitution matrices)是随后发展出的另外一套比对打分方法,它是从BLOCKS数据库中选取具有良好保守型的蛋白家族,从中统计氨基酸发生替换的相对频率和概率所构成的矩阵(block-sum)*。BLOSUM-62表示相似度为62%的序列。和PAM矩阵不同,BLOSUM-n的n值越大,表示序列相似度越高。

图3. BLOSUM62。(图片来源:维基百科)

要点归纳

1. BLOSUM数值越高,序列相似度越高;PAM数值越低,序列相似度越高。

2. 如何选择打分矩阵?

未知信息的情况下,BLOSUM62是最好的选择。BLAST的默认矩阵也是BLOSUM62。

已知信息的情况下,如果关系较近,则采用高BLOSUM矩阵,比如BLOSUM80,也可以采用低PAM矩阵,比如PAM1;如果关系较远,采用低BLOSUM矩阵,比如BLOSUM45,或高PAM矩阵,比如PAM250。

思考

不知道大家是否会有一个疑惑,既然PAM-1表示1%的替换,那么PAM-100不是表示100%的替换吗?怎么还会有PAM-250呢?


参考资料

1. Substitution Matrices (DOI:10.1002/9780470015902.a0005265.pub2)

2. * 百度百科

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容