【现学现卖】序列比对之算法

​前期相关推送(序列比对结果中的一些值的意义):

【现学现卖】序列比对之identity VS similarity

【现学现卖】序列比对之bit-score VS E-value

在bit-score和E-value的公式中,S为原始矩阵得分,其他常数与选择的算法相关。那么什么是序列比对的矩阵得分?序列比对都有哪些算法呢?

一、序列比对

1. 序列比对的理论基础

基础是进化学说,如果两个序列相似性高,则推测同源/有共同的进化祖先,它们是经过序列残基的一些列变化(替换、缺失、重组等)演化而来的。

比如下面两个序列:

这两条序列要实现更好的比对,就会引入空位。序列残基的替换导致单个残基不匹配(红色短线),残基的插入或缺失导致空位(红色长线)。

2. 序列比对的两种数学模型

主要模型是全局比对(Global alignment)和局部比对(Local alignment)。它们分别从整体和局部反映序列的特征,现实使用中,局部比对使用较多,生物序列往往不会全长相似,而是局部相似,所以局部比对有更高的灵敏度,结果更具生物学意义(当然如果本身就是选定的一段很短的目标序列,那么两种模型的结果应该差异不大;换句话说,全局比对适合比较长度相似的序列,而局部比对可以比对长度相差较大的序列)。

3.序列比对打分矩阵

(1)核苷酸序列

等价矩阵:相同核苷酸则赋值为1,不同为0。

BLAST矩阵:经验总结。

转移矩阵/转换-颠换矩阵:嘌呤-嘧啶的转换/颠换+经验总结。

(2)氨基酸序列(表太多,太大了,我就不在这里粘贴了)

氨基酸序列的这两个常用打分矩阵都属于替换矩阵,主要是考虑在进化过程中,不同氨基酸的替代对蛋白质功能和结构的影响不同,所以用简单的比对相同或者不同不足以描述两个氨基酸残基的关系。

PAM矩阵:Point accepted mutation matrices。基于进化的突变模型,分析同源蛋白在进化中氨基酸变化的可能性。有PAM1-250,后面的数字越小表示亲缘关系越近,PAM1是similarity>85%的序列计算产生的。

BLOSUM矩阵:Blocks amino acid substitution matrices。基于蛋白质模块数据库,以序列片段为基础。有BLOSUM45,62,80等,数字越大,亲缘关系越近,BLOSUM80是identity>80%的序列计算得到的。

根据比对的两个序列的亲缘关系远近选择合适的矩阵,如果不清楚,一般选择PAM120或BLOSUM62。

二、序列两两比对

经典算法(动态规划算法)是Needleman-Wunsch算法(整体比对算法)和Smith-Waterman算法(局部比对算法)。两种算法均可以用于核苷酸和氨基酸序列,给定空位罚值和打分矩阵后,给出最高比对值的排列。

三、多序列比对

多序列比对的算法是基于渐进比对,在序列两两比对算法的基础上逐步优化的结果。

目前发展出来的程序有CLUSTALW(累进算法),MUSCLE(迭代算法),MAFFT等(上图选项,其中CLUSTALW最为人熟知,传说MUSCLE和MAFFT的精度和速度都优于CLUSTALW,由于我的数据还算简单,也不多,感觉没什么大差别。考虑到它们迭代可以纠正初始比对错误,所以理论上精度会提高)。

四、序列数据库搜索

数据库搜索可以说是序列相似性比对最有价值的应用,我最熟悉的是BLAST和antiSMASH。

BLAST算法

将查询序列分为短片段(局部比对),筛选库中具备这些片段的序列,然后将匹配的序列片段延伸(插入,gap等),根据矩阵计分排序,显示结果。

antiSMASH工具算法

它的算法是CASSIS(Cluster Assignment by Islands of Sites)。antiSMASH是对微生物次生代谢产物基因簇的序列搜索工具,由于生成这些化合物的基因都是成簇的,所以它的算法中重要的是找到基因簇。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352