一文读懂双序列比对(全局比对、局部比对)

一、什么是序列比对呢?

系列(sequence)就是个字符串(string)

s=abcdefghjkohysbsaihoad pajap

对于一个蛋白或者核酸序列从数据库中找出与它相同或者相似的序列。

二、为什么要做序列比对呢?

序列决定结构,结构决定功能。

三、原理和意义是什么呢?

通过寻找相似的序列,可以从已知的结构和功能推断未知蛋白质的结构和功能等。

四、比对有指标吗?

要进行序列比对,一定要有一个衡量的量化指标,那么就可以引出同源度和相似度两个概念,既然有指标要量化,自然就要确定打分规则。

同源度/一致度(identity):若两个序列长度相同,则他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。

相似度(similarity):若两个序列长度相同,则他们对应位置上相似的残基与相同的残基的数目和占总长的的百分数。

小tip:哪个残基与哪个残基算作相似?

残基两两相似的量化关系被替换记分矩阵所定义。

五、序列有不同吗?

序列分为两种,核苷酸序列(由4个不同的 字母/碱基 排列组合而成(DNA/RNA序列))和氨基酸序列(由20个不同的 字母/氨基酸 排列组合而成(蛋白质序列)),两个序列字母之间的比对的规则需要依靠替换积分矩阵来打分。

DNA序列的替换计分矩阵有三种:① 等价矩阵、② 转换-颠换矩阵、③ BLAST矩阵(常用);

蛋白质序列的替换计分矩阵包括:① 等价矩阵、② PAM矩阵、③ BLOSUM矩阵常用BLOSUM-62矩阵),另外还有 ④ 遗传密码矩阵和 ⑤ 疏水矩阵。

六、当序列长度相同或不同时,如果允许加入gap,怎样才能使的打分的值最大呢?有没有简单的方法可以让我们快速的找出最大分值呢?

目前,解决方案包括:① 打点法(虽然其无法量化,仅能提供直观的比较)和最常用的、可量化的序列比对法(② 包括全局比对和局部比对)。

双序列的全局比对常采用 Needleman-Wunsch 算法(基于动态规划),具体内容见下文介绍。

双序列的局部比对通常采用 Smith-Waterman 算法,它与 Needleman-Wunsch 算法在原理上有相似之处。

然而,在某些情况下,全局比对的意义可能不如局部比对。

七、什么是gap?

在生物信息学中,gap(缺口)是指在序列比对中,为了最大化序列之间的相似性而引入的空白或缺失。

在双序列比对或多序列比对中,gap 用于表示在一个序列中缺失的碱基(DNA/RNA)或氨基酸(蛋白质),以便更好地对齐与另一条序列的相应部分。

八、gap的作用是什么?

① 提高比对准确性:通过引入 gap,可以更好地对齐序列中的保守区域,从而提高比对的整体准确性。

② 反映进化关系:gap 的存在可以反映出物种在进化过程中可能发生的插入或缺失事件(Indels),有助于理解基因或蛋白质的演化历史。

③ 影响功能预测:在某些情况下,gap 的位置和数量可能影响到基因或蛋白质的功能预测,因为插入或缺失可能会改变蛋白质的结构和功能。

九、数据格式是如何的呢?

FASTA格式:

第一行:> 名称或其它注释

第二行:字母(每行60个字母或更多)

十、为什么要用算法或工具来比对序列?

只能依靠工具,用肉眼是费时、费力、不准确。数据库中序列相似性搜索(即对于一个蛋白质或核酸序列,从序列数据库中找到与它相同或相似的序列)准确、快速。


具体来说:

一、功能及意义

1、相似的序列往往起源于一个共同的祖先,很可能具有相似的空间结构和生物学功能,因此对于一个已知序列但未知结构、功能的蛋白质,如果与其序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构、功能的蛋白质的结构和功能。

序列相似性的重要性

二、替换计分矩阵及长度相同序列比对

替换计分矩阵(Substitution Matrix):反映残基之间相互替换率的矩阵,它描述了残基两两相似的量化关系。

分为DNA替换记分矩阵和蛋白质替换记分矩阵。

替换计分矩阵(DNA、蛋白质)

三、DNA序列的替换计分矩阵(等价矩阵、转换-颠换矩阵、BLAST矩阵(常用))

1、等价矩阵(unitary matrix):最简单的替换记分矩阵,其中,相同核苷酸之间的匹配得分为1,不同核苷酸间的替换得分为0。(由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中较少使用)。

2、转换-颠换矩阵((transition-transversion matrix):核酸的碱基按照环结构特征被划分为两类,一类是嘌呤(A、G),它们有两个环;另一类是嘧啶(C、T),它们只有一个环。如果DNA碱基的替换保持环数不变,则成为转换,如A→G;如果环数发生变化,则成为颠倒,如A→C等。在进化过程中,转换发生的频率远比颠换高。所以一般,该矩阵中转换的得分为-1,颠倒的得分为-5。

3、BLAST矩阵:若让被比对的两个核苷酸相同时得分为+5,反之为-4,则比对效果更好。这个矩阵广泛地被DNA序列比较所采用。

单位矩阵即等价矩阵

四、蛋白质序列的替换计分矩阵(等价矩阵、PAM矩阵、BLOSUM矩阵,常用BLOSUM-62矩阵)

1、等价矩阵(unitary matrix):相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。

2、PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。若两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该很高。PAM-1矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一,基础PAM矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n,即发生了更多次突变。

PAM后面的数字表示差异度,但数值不完全等于差异度的值

3、BLOSUM矩阵(blocks substitution):BLOSUM矩阵都是通过对大量符合特定要求的序列计算而来的。PAM-1矩阵是基于相似度>85%的序列计算产生的,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。BLOSUM矩阵的编号,比如BLOSUM-80中的80,代表该矩阵是由一致度≥80%的序列计算而来的,同理,BLOSUM-62是该矩阵由一致度≥62%的序列计算而来的。

BLOUSUM后面的数字表示相似性(一致度)

对于关系较远的序列,由于PAM-250是推算而来,准确度不行,BLOSUM-45更具优势;对于关系较近的序列间的比较,用PAM或BLOSUM矩阵做出的比对结果,差别不大。

从BLOSUM-62中判断氨基酸之间是否相似

蛋白质序列比对上,最常用的是BLOSUM-62矩阵

PAM与BLOSUM矩阵的比较

4、遗传密码矩阵(genetic code matrix,GCM):通过计算一个氨基酸转换成另一个氨基酸所需要的密码子变化的数目而得到,矩阵的值对应为据此付出的代价。如果变化一个碱基就可以使得一个氨基酸的密码子转换为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;如果需要2个碱基的改变,则替换代价为2;再比如从Met到Tyr3个密码子,则代价为3。

5、疏水矩阵:根据氨基酸残基替换前后疏水性的变化而得到矩阵。若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。该矩阵物理意义明确,有一定的理化性质依据,适用于偏重蛋白质功能方面的序列比对。

五、不同长度序列如何比对,进行计算一致度和相似度?

提供两种方法,打点法、序列比对法。

1、打点法

连续的对角线及对角线的平行线代表两条序列中相同的区域;无关的序列不会出现类似的平行线;可以用一条序列自己对自己打分,就可以发现序列中重复的片段。在横向和纵向上,与主对角线评选的短平行线所对应的序列片段就是重复的部分。

2、序列比对法(可定量)-双序列比对和多序列比对

打点法无法定量,序列比对法可定量

①双序列全局比对及Needleman-Wunsch算法(动态规划算法)

追溯从右下角到左上角,写结果的时候从左上角到右下角

②双序列局部比对(Smith_Waterman算法)

以最大分值为起点从右下角到左上角

无论两个序列长度是否相同,都需要先做双序列全局比对,然后根据比对结果即比对长度计算它们的一致度和相似度。


六、双序列比对在线工具

① 全局比对工具psa-GLOBAL ALIGNMENT

② 局部比对工具novopro.cn

③ Biotools还可以给出矩阵图

④其他的一些工具

q

喜欢的宝子们点个赞吧~码字不易,且行且珍惜~生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,430评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,406评论 3 398
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,834评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,543评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,547评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,196评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,776评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,671评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,221评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,303评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,444评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,134评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,810评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,285评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,399评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,837评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,455评论 2 359

推荐阅读更多精彩内容