一、什么是序列比对呢?
系列(sequence)就是个字符串(string)
s=abcdefghjkohysbsaihoad pajap
对于一个蛋白或者核酸序列从数据库中找出与它相同或者相似的序列。
二、为什么要做序列比对呢?
序列决定结构,结构决定功能。
三、原理和意义是什么呢?
通过寻找相似的序列,可以从已知的结构和功能推断未知蛋白质的结构和功能等。
四、比对有指标吗?
要进行序列比对,一定要有一个衡量的量化指标,那么就可以引出同源度和相似度两个概念,既然有指标要量化,自然就要确定打分规则。
同源度/一致度(identity):若两个序列长度相同,则他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。
相似度(similarity):若两个序列长度相同,则他们对应位置上相似的残基与相同的残基的数目和占总长的的百分数。
小tip:哪个残基与哪个残基算作相似?
残基两两相似的量化关系被替换记分矩阵所定义。
五、序列有不同吗?
序列分为两种,核苷酸序列(由4个不同的 字母/碱基 排列组合而成(DNA/RNA序列))和氨基酸序列(由20个不同的 字母/氨基酸 排列组合而成(蛋白质序列)),两个序列字母之间的比对的规则需要依靠替换积分矩阵来打分。
DNA序列的替换计分矩阵有三种:① 等价矩阵、② 转换-颠换矩阵、③ BLAST矩阵(常用);
蛋白质序列的替换计分矩阵包括:① 等价矩阵、② PAM矩阵、③ BLOSUM矩阵(常用BLOSUM-62矩阵),另外还有 ④ 遗传密码矩阵和 ⑤ 疏水矩阵。
六、当序列长度相同或不同时,如果允许加入gap,怎样才能使的打分的值最大呢?有没有简单的方法可以让我们快速的找出最大分值呢?
目前,解决方案包括:① 打点法(虽然其无法量化,仅能提供直观的比较)和最常用的、可量化的序列比对法(② 包括全局比对和局部比对)。
双序列的全局比对常采用 Needleman-Wunsch 算法(基于动态规划),具体内容见下文介绍。
双序列的局部比对通常采用 Smith-Waterman 算法,它与 Needleman-Wunsch 算法在原理上有相似之处。
然而,在某些情况下,全局比对的意义可能不如局部比对。
七、什么是gap?
在生物信息学中,gap(缺口)是指在序列比对中,为了最大化序列之间的相似性而引入的空白或缺失。
在双序列比对或多序列比对中,gap 用于表示在一个序列中缺失的碱基(DNA/RNA)或氨基酸(蛋白质),以便更好地对齐与另一条序列的相应部分。
八、gap的作用是什么?
① 提高比对准确性:通过引入 gap,可以更好地对齐序列中的保守区域,从而提高比对的整体准确性。
② 反映进化关系:gap 的存在可以反映出物种在进化过程中可能发生的插入或缺失事件(Indels),有助于理解基因或蛋白质的演化历史。
③ 影响功能预测:在某些情况下,gap 的位置和数量可能影响到基因或蛋白质的功能预测,因为插入或缺失可能会改变蛋白质的结构和功能。
九、数据格式是如何的呢?
FASTA格式:
第一行:> 名称或其它注释
第二行:字母(每行60个字母或更多)
十、为什么要用算法或工具来比对序列?
只能依靠工具,用肉眼是费时、费力、不准确。数据库中序列相似性搜索(即对于一个蛋白质或核酸序列,从序列数据库中找到与它相同或相似的序列)准确、快速。
具体来说:
一、功能及意义
1、相似的序列往往起源于一个共同的祖先,很可能具有相似的空间结构和生物学功能,因此对于一个已知序列但未知结构、功能的蛋白质,如果与其序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构、功能的蛋白质的结构和功能。
二、替换计分矩阵及长度相同序列比对
替换计分矩阵(Substitution Matrix):反映残基之间相互替换率的矩阵,它描述了残基两两相似的量化关系。
分为DNA替换记分矩阵和蛋白质替换记分矩阵。
三、DNA序列的替换计分矩阵(等价矩阵、转换-颠换矩阵、BLAST矩阵(常用))
1、等价矩阵(unitary matrix):最简单的替换记分矩阵,其中,相同核苷酸之间的匹配得分为1,不同核苷酸间的替换得分为0。(由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中较少使用)。
2、转换-颠换矩阵((transition-transversion matrix):核酸的碱基按照环结构特征被划分为两类,一类是嘌呤(A、G),它们有两个环;另一类是嘧啶(C、T),它们只有一个环。如果DNA碱基的替换保持环数不变,则成为转换,如A→G;如果环数发生变化,则成为颠倒,如A→C等。在进化过程中,转换发生的频率远比颠换高。所以一般,该矩阵中转换的得分为-1,颠倒的得分为-5。
3、BLAST矩阵:若让被比对的两个核苷酸相同时得分为+5,反之为-4,则比对效果更好。这个矩阵广泛地被DNA序列比较所采用。
四、蛋白质序列的替换计分矩阵(等价矩阵、PAM矩阵、BLOSUM矩阵,常用BLOSUM-62矩阵)
1、等价矩阵(unitary matrix):相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。
2、PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。若两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该很高。PAM-1矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一,基础PAM矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n,即发生了更多次突变。
3、BLOSUM矩阵(blocks substitution):BLOSUM矩阵都是通过对大量符合特定要求的序列计算而来的。PAM-1矩阵是基于相似度>85%的序列计算产生的,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。BLOSUM矩阵的编号,比如BLOSUM-80中的80,代表该矩阵是由一致度≥80%的序列计算而来的,同理,BLOSUM-62是该矩阵由一致度≥62%的序列计算而来的。
对于关系较远的序列,由于PAM-250是推算而来,准确度不行,BLOSUM-45更具优势;对于关系较近的序列间的比较,用PAM或BLOSUM矩阵做出的比对结果,差别不大。
从BLOSUM-62中判断氨基酸之间是否相似
蛋白质序列比对上,最常用的是BLOSUM-62矩阵
4、遗传密码矩阵(genetic code matrix,GCM):通过计算一个氨基酸转换成另一个氨基酸所需要的密码子变化的数目而得到,矩阵的值对应为据此付出的代价。如果变化一个碱基就可以使得一个氨基酸的密码子转换为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;如果需要2个碱基的改变,则替换代价为2;再比如从Met到Tyr3个密码子,则代价为3。
5、疏水矩阵:根据氨基酸残基替换前后疏水性的变化而得到矩阵。若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。该矩阵物理意义明确,有一定的理化性质依据,适用于偏重蛋白质功能方面的序列比对。
五、不同长度序列如何比对,进行计算一致度和相似度?
提供两种方法,打点法、序列比对法。
1、打点法
2、序列比对法(可定量)-双序列比对和多序列比对
打点法无法定量,序列比对法可定量
①双序列全局比对及Needleman-Wunsch算法(动态规划算法)
②双序列局部比对(Smith_Waterman算法)
无论两个序列长度是否相同,都需要先做双序列全局比对,然后根据比对结果即比对长度计算它们的一致度和相似度。
六、双序列比对在线工具
① 全局比对工具psa-GLOBAL ALIGNMENT
② 局部比对工具novopro.cn
③ Biotools还可以给出矩阵图
④其他的一些工具
喜欢的宝子们点个赞吧~码字不易,且行且珍惜~生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!