NW全局比对算法原理及python实现 (考虑gap长度)

在序列比对的时候，有全局比对和局部比对两种方法，其中，Needleman-Wunsch比对算法是其中的一个很经典的全局比对算法。下面将用python从头实现，将考虑match，mismatch，gap和gap是否连续的因素。

先确定打分策略，先考虑match，mismatch和gap的分数。
现将match定为1分，mismatch -1分，gap是-2分。

现有两个序列，一个是ATCG，一个是TCG，以下是初始分值矩阵：

first_score

第一列和第一行表示一开始比对到gap上，因此计入gap的分数。

接着计算每行每列的分数，比如第三行第三列，可以得到三个分数，同一行列的为一个gap：

从三种路径中选择分数最高的作为这个位置的分数。接下来每个位置都要进行这样的计算，直到填满这个表格。

form

同时可以得到最佳路径：

path

以下用python实现：

比较两个碱基是否一致

# 比较两个碱基分数， gaps的分数考虑在cal_score
def diff(first, second):
    if first == second:
        return match 
    else:
        return mismatch

计算分数，并考虑多段gap的情况。一般来说，结果应该更倾向于仅出现一段长gap而不是多个短gap。所以将第一次出现的gap定位-2分，第二次及之后连续出现的gap定为一个更小的分数。即变量extend。

def cal_score(seq1, seq2):

    nrow = len(seq1)
    ncol = len(seq2)

    scores = np.zeros((nrow, ncol))
    path = np.zeros((nrow, ncol))
    # 初始化第一行第一列
    for index1 in range(nrow):
        scores[index1,0] = gap * index1
        path[index1,0] = 0 #上面

    for index2 in range(ncol):
        scores[0,index2] = gap * index2
        path[0, index2] = 2 #左侧


    for num1 in range(1, nrow):
        for num2 in range(1, ncol):

            # 得到上面，斜上和左侧的结果
            last_score = [scores[num1 - 1, num2], scores[num1 - 1, num2 - 1], scores[num1, num2 - 1]]
            change_score = diff(seq1[num1], seq2[num2])
            current_score = []

            if path[num1 - 1 , num2] == 0:
                current_score.append(scores[num1-1, num2] + extend) # 上面
            else:
                current_score.append(scores[num1-1, num2] + gap)

            current_score.append(scores[num1-1, num2 - 1] + change_score) # 斜上

            if path[num1 , num2 -1] == 2:
                current_score.append(scores[num1, num2-1] + extend) # 左侧
            else:
                current_score.append(scores[num1, num2-1] + gap)    

            current_index = current_score.index(max(current_score)) # 当前索引，不是0就gap

            scores[num1, num2] = max(current_score)

            path[num1, num2] = current_index


    return scores, path

回溯路径并输出结果

def cal_seq(scores, path):
    index1 = len(seq1) - 1
    index2 = len(seq2) -1

    top = ''
    middle = ''
    bottom = ''

    while True:
        if path[index1, index2] == 1:
            top += seq1[index1]
            bottom += seq2[index2]

            if seq1[index1] == seq2[index2]:
                middle += '|'
            else:
                middle += ' '

            index1 -= 1
            index2 -= 1

        elif path[index1, index2] == 0:
            top += seq1[index1]
            bottom += '-'
            middle += ' '

            index1 -= 1

        else:
            top += '-'
            bottom += seq2[index2]
            middle += ' '

            index2 -= 1 

        
        top_num = len(top) - top.count('-')
        bottom_num = len(bottom) - bottom.count('-')
        if top_num == max(len(seq1), len(seq2))-1 or bottom_num == max(len(seq1), len(seq2))-1:
            break

    return top, middle, bottom

4.命令行解析与主函数

import argparse
import numpy as np

def getArgs(argv=None):
    parser = argparse.ArgumentParser()
    parser.add_argument("-seq1", help = "", required = True)
    parser.add_argument("-seq2", help = "", required = True)
    args = parser.parse_args()
    return args

if __name__ == '__main__':
    args = getArgs()
    seq1 = "_" + args.seq1
    seq2 = "_" + args.seq2


    match=5  # 或者别的分数
    mismatch=-5
    gap=-10  
    extend = -0.5  

    scores,path = cal_score(seq1, seq2)
    top, middle, bottom = cal_seq(scores, path)

    print(top[::-1])
    print(middle[::-1])
    print(bottom[::-1])

调用：python extend_alignment.py -seq1 ATCGATGGTATATATCGATC -seq2 ATCGATGAGTATAT

输出：

output

如有错误，欢迎指出！

最后编辑于：2020.04.21 11:23:09

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,692评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,482评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,995评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,223评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,245评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,208评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,091评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,929评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,346评论 1赞 311
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,570评论 2赞 333
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,739评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,437评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,037评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,677评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,833评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,760评论 2赞 369
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,647评论 2赞 354

NW全局比对算法原理及python实现 (考虑gap长度)

推荐阅读更多精彩内容