DNA sequence Algorithm

Exact match

image.png

Naive exact match

Introduction:精确匹配,耗时长
Input: parten 和 text即模式串和需要比对上的字符串
Output: parten出现所有位置的index
Algorithm:两个loop,外层对t进行移位,内层逐字符比对,关键是有一个mach标志为,如果比对上了,append。

def naive(p, t):
    occurrences = []
    for i in range(len(t) - len(p) + 1):  # loop over alignments
        match = True
        for j in range(len(p)):  # loop over characters
            if t[i+j] != p[j]:  # compare characters
                match = False
                break
        if match:
            occurrences.append(i)  # all chars matched; record
    return occurrences

Boyer-Moore

Introduction:j精确匹配,可以跳过一些不需要匹配的位置,因此速度比Naive快
Input: p, t 和p_bm,它相当于一个对p的preprocess
Output: p匹配到t的位置
Algorithm:核心思想:一个shift,每次选出一个最大gap, 如何匹配上了, append(i)
细节:首先while循环,因为你不清楚循环次数,所以不用for循环;然后for循环,对p中的每个字符遍历,从右往左,如果不等,通过bad_character和good_suffix两种规则,求出最大shift,并break;如果match,则append,并skip_gs,继续map,有可能有多个位置。

def boyer_moore(p, p_bm, t):
    """ Do Boyer-Moore matching. p=pattern, t=text,
        p_bm=BoyerMoore object for p """
    i = 0
    occurrences = []
    while i < len(t) - len(p) + 1:
        shift = 1
        mismatched = False
        for j in range(len(p)-1, -1, -1):
            if p[j] != t[i+j]:
                skip_bc = p_bm.bad_character_rule(j, t[i+j])
                skip_gs = p_bm.good_suffix_rule(j)
                shift = max(shift, skip_bc, skip_gs)
                mismatched = True
                break
        if not mismatched:
            occurrences.append(i)
            skip_gs = p_bm.match_skip()
            shift = max(shift, skip_gs)
        i += shift
    return occurrences

image.png

image.png

Hash Algorithm

Introduction:需要preprocess的算法,精确匹配,适用于test较大的比对,但是hash表较大
Input: p, t, k k是生成hash table也就是Index中的k-mer
Output:比对的位置
Algorithm:核心:先是对test进行index生成hashtable,query的时候对p只选了一个k-mer, 因为这里选的都是精确匹配。python中用的一个list,然后元素是(k-mer, position), 用了一个二叉树查找,这里的-1有点奇怪。然后对p进行选取k-mer,查找,最后需要对剩下的字符进行匹配。

class Index(object):
    """ Holds a substring index for a text T """

    def __init__(self, t, k):
        """ Create index from all substrings of t of length k """
        self.k = k  # k-mer length (k)
        self.index = []
        for i in range(len(t) - k + 1):  # for each k-mer
            self.index.append((t[i:i+k], i))  # add (k-mer, offset) pair
        self.index.sort()  # alphabetize by k-mer

    def query(self, p):
        """ Return index hits for first k-mer of p """
        kmer = p[:self.k]  # query with first k-mer
        i = bisect.bisect_left(self.index, (kmer, -1))  # binary search
        hits = []
        while i < len(self.index):  # collect matching index entries
            if self.index[i][0] != kmer:
                break
            hits.append(self.index[i][1])
            i += 1
        return hits

def query_index(p, t, index):
    k = index.k
    offsets = []
    for i in index.query(p):
        if p[k:] == t[i+k: i+len(p)]:
            offsets.append(i)
    return offsets

减少hashtable的大小

image.png

image.png

image.png

提高specificity, 减少collision的次数
image.png

Approximate match

image.png

Pigenohole principle:即P与T匹配,允许k个失配,那么把P分成k+1份,必然在T中能够找到k+1份中某一份的精确匹配
if |X| = |Y|, then EditDistance(X, Y) <= HammingDistance(X, Y)
if |X| not equal |Y|, then EditDistance(X, Y) >= ||X|-|Y||

image.png

** Hamming distance

image.png

Edit distance
image.png

Hash with pigenohole principle

Introduction:模糊匹配,原理主要采用鸽子洞原理,即把P分为k+1份,总有一份满足精确匹配,找到它的位置,然后计算其余部分失配的个数不能超过限定值。
Input: p, t, n n表示允许失配的个数
Output:匹配到的位置,以及字符
Algorithm:核心思想是把p分为n+1份,我们只要求长度即可,并且小于它就行,不需要我们产生n+1个随机数,还得之和为len(P).然后根据这个平均长度,生成hashtable.然后对n+1份字符进行遍历,并且查找位置,之后对查找出的位置进行遍历。如果查找的位置小于start 或者大于len(t),则continue,否则,逐字符比对剩下的字符,统计失配个数。

def approximate_match(p, t, n):
    segment_length = int(round(len(p) / (n + 1)))
    all_matches = set()
    p_idx = Index(t, segment_length)
    idx_hits = 0
    for i in range(n + 1):
        start = i * segment_length
        end = min((i + 1) * segment_length, len(p))
        matches = p_idx.query(p[start:end])
        # Extend matching segments to see if whole p matches
        for m in matches:
            idx_hits += 1
            if m < start or m - start + len(p) > len(t):
                continue
            mismatches = 0
            for j in range(0, start):
                if not p[j] == t[m - start + j]:
                    mismatches += 1
                    if mismatches > n:
                        break
            for j in range(end, len(p)):
                if not p[j] == t[m - start + j]:
                    mismatches += 1
                    if mismatches > n:
                        break

            if mismatches <= n:
                all_matches.add(m - start)
    return list(all_matches), idx_hits
image.png
image.png
image.png
def editDistance(a, b):
  if len(a) == 0 :
    return len(b)
  if len(b) == 0:
    return len(a)
  if a[-1] == b[-1]:
    delta = 1
  else :
    delta = 0
  return min{editDistance(a[ :-1], b[ :-1]) + delta,  editDistance(a, b[ : -1]) + 1, editDistance(a[ : -1], b) + 1}

Problem :递归太耗时了,主要是会重复计算相同的值

Dynamic programing

image.png

For any pair of prefixes from X and Y ,edit distance is calculated once ,这也是它跟递归相比快的原因,但很明显,它消耗更多的内存资源。

def editDistance(x, y):
    # create distance matrix
    D = []
    for i in range(len(x)+1):
        D.append([0]*(len(y)+1))
        # initialze first row and colum of matrix
    for i in range(len(x)+1):
        D[i][0] = i
    for i in range(len(y)+1):
        D[0][i] = i
    #fill in the rest of the matrix
    for i in range(1, len(x)+1):
        for j in range(1, len(y)+1):
            disHor = D[i][j-1] + 1
            disVer = D[i-1][j] + 1
            if x[i-1] == y[j-1]:
                disDiag = D[i-1][j-1]
            else:
                disDiag = D[i-1][j-1] + 1
            D[i][j] = min(disHor, disVer, disDiag)

    return D[-1][-1]

Approximate match

Introduction:第一行初始化为0,因为你不清楚P在哪个地方与T匹配第一个字符,所以默认的editDistance都为0,然后从最后一排中editDistance最小的位置开始回溯

image.png

local alignment and gloal alignement

image.png

Assembly

image.png

image.png

image.png

Overlap graph

image.png

image.png

Introduction:
Input:一组reads
Output:overlap graph
Algorithm:核心:对每一个read移位生成k-mer,然后以k-mer为地址,value为read,进行建表,key-value也即dic数据结构

def overlap(a, b, min_length=3):
    """ Return length of longest suffix of 'a' matching
        a prefix of 'b' that is at least 'min_length'
        characters long.  If no such overlap exists,
        return 0. """
    start = 0  # start all the way at the left
    while True:
        start = a.find(b[:min_length], start)  # look for b's prefix in a
        if start == -1:  # no more occurrences to right
            return 0
        # found occurrence; check for full suffix/prefix match
        if b.startswith(a[start:]):
            return len(a)-start
        start += 1  # move just past previous match

def overlap_all_pairs(reads, k):
    dic = {}
    index = defaultdict(set)
    for read in reads:
        for i in range(len(read)-k+1):
            index[read[i:i+k]].add(read)

    # make graph
    graph = defaultdict(set)
    for r in reads:
        for o in index[r[-k:]]:
            if r != o:
                if overlap(r, o, k):
                    graph[r].add(o)

    edges = 0
    for read in graph:
        edges += len(graph[read])
    return(edges, len(graph))

shortest common string


Introduction:需要把各种组合都考虑进去,求取最小的一个,太耗时间了
Input:
Output:
Algorithm

def scs(ss):
    shortest_sup = None
    for ssperm in itertools.permutations(ss):
        sup = ssperm[0]
        for i in range(len(ssperm)-1):
            olen = overlap(ssperm[i], ssperm[i+1], min_length=1)
            sup += ssperm[i+1][olen:]
        if shortest_sup is None or len(sup)<len(shortest_sup):
            shortest_sup = sup
    return shortest_sup

Greedy shortest common superstring

Introduction:不一定能得到最优解,但是速度快,并且与最优解的差距不大
Input:
Output:
Altogrithm

def pick_maximal_overlap(reads, k):
    read_a = None
    read_b = None
    best_olen = 0
    for a, b in itertools.permutations(reads, 2):
        olen = overlap(a, b, min_length=k)
        if olen > best_olen:
            read_a, read_b = a, b
            best_olen = olen
    return read_a, read_b, best_olen

def greedy_scs(reads, k):
    read_a , read_b, olen = pick_maximal_overlap(reads, k)
    while(olen > 0):
        reads.remove(read_a)
        reads.remove(read_b)
        reads.append(read_a + read_b[olen:])
        read_a, read_b, olen = pick_maximal_overlap(reads, k)

    return ''.join(reads)
image.png

De Bruijn graph

image.png

image.png
def de_bruijn_ize(st, k):
    edges = []
    nodes = set()

    for i in range(len(st)-k+1):
        edges.append((st[i:i+k-1], st[i+1:i+k]))
        nodes.add(st[i:i+k-1])
        nodes.add(st[i+1:i+k])

    return nodes, edges
image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,417评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,921评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,850评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,945评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,069评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,188评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,239评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,994评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,409评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,735评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,898评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,578评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,205评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,916评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,156评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,722评论 2 363
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,781评论 2 351

推荐阅读更多精彩内容

  • Python中的正则表达式(re) import rere.match #从开始位置开始匹配,如果开头没有则无re...
    BigJeffWang阅读 7,069评论 0 99
  • 官网 中文版本 好的网站 Content-type: text/htmlBASH Section: User ...
    不排版阅读 4,380评论 0 5
  • "use strict";function _classCallCheck(e,t){if(!(e instanc...
    久些阅读 2,028评论 0 2
  • 饭后跟同事一起逛了一下美食街,看到淋漓尽致的美食,瞬间感觉很饱。 午饭后在办公室跟几个同事聊起巜水知道答案》,聊起...
    黄泳仪阅读 161评论 0 2
  • 吃折罗,是北方话,用本地话说就是“吃回样儿”,就是吃剩菜剩饭。那又为什么要写要吃呢?现时的经济条件和健康...
    东观阅读 3,583评论 0 1