序列比对的打分矩阵 | PAM矩阵 v.s. BLOSUM矩阵

匹配/不匹配矩阵（match/mismatch matrices）

这种匹配方式简单粗暴，就是对匹配成功的核苷酸对/氨基酸对赋予一个固定的正值，不匹配的赋予一个固定的负值。但是这种方法在氨基酸序列比对中存在明显弊端——其忽略了氨基酸之间存在物理/化学性质的相似性（图1），比如色氨酸、苯丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丙氨酸和蛋氨酸（甲硫氨酸）都为疏水性氨基酸。具有同样理化性质的氨基酸更有可能在进化进程中发生替换（substitution）。

图1. 20个常见氨基酸的10种生化特性。（Livingstone CD, Barton GJ. Protein sequence alignments: a strategy for the hierarchical analysis of residue conservation. Comput Appl Biosci. 1993 Dec;9(6):745-56. doi: 10.1093/bioinformatics/9.6.745. PMID: 8143162.）

PAM矩阵

PAM矩阵（point accepted mutation matrix）由Margaret Dayhoff等人于1978年提出，用来判断两个蛋白质序列相似性。1个PAM（PAM-1）代表平均1%的氨基酸被替换。

图2. PAM250矩阵。（http://what-when-how.com/molecular-biology/point-accepted-mutation-molecular-biology/）

BLOSUM矩阵

BLOSUM矩阵（blocks amino acid substitution matrices）是随后发展出的另外一套比对打分方法，它是从BLOCKS数据库中选取具有良好保守型的蛋白家族，从中统计氨基酸发生替换的相对频率和概率所构成的矩阵（block-sum）*。BLOSUM-62表示相似度为62%的序列。和PAM矩阵不同，BLOSUM-n的n值越大，表示序列相似度越高。

图3. BLOSUM62。（图片来源：维基百科）

要点归纳

1. BLOSUM数值越高，序列相似度越高；PAM数值越低，序列相似度越高。

2. 如何选择打分矩阵？

未知信息的情况下，BLOSUM62是最好的选择。BLAST的默认矩阵也是BLOSUM62。

已知信息的情况下，如果关系较近，则采用高BLOSUM矩阵，比如BLOSUM80，也可以采用低PAM矩阵，比如PAM1；如果关系较远，采用低BLOSUM矩阵，比如BLOSUM45，或高PAM矩阵，比如PAM250。

思考

不知道大家是否会有一个疑惑，既然PAM-1表示1%的替换，那么PAM-100不是表示100%的替换吗？怎么还会有PAM-250呢？

参考资料

1. Substitution Matrices (DOI:10.1002/9780470015902.a0005265.pub2)

2. * 百度百科

最后编辑于：2022.08.26 18:05:25

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

序列比对的打分矩阵 | PAM矩阵 v.s. BLOSUM矩阵

序列比对的打分矩阵 | PAM矩阵 v.s. BLOSUM矩阵

匹配/不匹配矩阵（match/mismatch matrices）

PAM矩阵

BLOSUM矩阵

要点归纳

思考

相关阅读更多精彩内容

友情链接更多精彩内容