学习BM算法的姿势

BM算法简介

BM是字符串搜索算法。

字符串搜索单模式下有BF、RK、BM、KMP算法,其中BF是暴力搜索,RK是利用hash的一种算法,BM和KMP是最常用的字符串匹配算法,假定模式串长度为m,文本长度是n,则BM最大算法复杂度在O(3n),KMP算法复杂度在O(m+n)。

学习姿势

BM算法恐怕我们一般都不会去写,为何要去学习这种算法呢?算法能训练人的逻辑能力,当然要学。但是以什么样的姿势来学这种算法呢,平心而论,这种算法学习复杂度算是比较高的,怎样去学习比较合适呢?

就我个人的体会来说,按照算法思想和算法实现的套路来学习能显著的降低学习复杂度。怎么理解这个套路呢?

  • 算法思想属于高层一点的抽象,这里的算法思想结合上算法主流程来理解,互相印证,算法的主流程也算是算法思想这个层面
  • 算法实现,算法主流程已经放在算法思想中了,那么算法实现指什么呢?看过《编程珠玑》,第二部分强调的就是算法写好以后的优化,没错,这里指的就是优化。对于这部分,如果能理解就理解,理解不了就当训练自己的算法思维了。

一旦以这种方式去理解这两个算法,就会发现学习曲线降低了很多。

BM算法

BM = (坏字符规则 + 好后缀规则) (算法思想) + (坏字符hash数组实现 + 好后缀巧算)(优化)

BM的算法思想

BM算法与两条规则有关,理解了这两条规则就理解了BM的算法思想。BM文本串和模式串是 从后向前 比较(特别注意一下这点)。

坏字符规则

-
c是坏字符

第一个不匹配的就是坏字符,如图就是文本串的c。不考虑好后缀的情况下,你会怎么办,就是直接把模式串移动到坏字符的后面。

  • 移动到坏字符后面

如果说坏字符在模式串种存在, 直接移动到后面,可能移动过头了。例如说如下情形,直接移动到坏字符c后面就过头了。

  • 移动过头了

    这时就需要结合好后缀来匹配。

好后缀规则

好后缀有两种情况

  • 情形一 好后缀在模式串种可以找到
    从后向前匹配,在遇到坏字符之前,这些匹配的串就是好后缀,如下橙色的ab就是好后缀。
  • 好后缀

好后缀可以在模式串种找到,直接就移动到模式串种的匹配处。

  • image.png
  • 情形二 好后缀在模式串种可以找不到

  • image.png

    这种情况下找不到,应该怎么移动呢,就要找好后缀的后缀子串和模式串的前缀子串的最大匹配串

  • image.png

    如图,找到ab的后缀子串和bb的前缀子串最长匹配串时b,因此移动到b的位置。

算法思想讲完了,就是这样的,再配合上主算法代码就完成了算思想的学习

class Solution:
    def search(self, inputStr, pattern):
        if len(inputStr) < len(pattern):
            return -1
        bc = self.generateBC(pattern)
        suffix, prefix = self.generateGoodSuffix(pattern)

        i = 0
        patternLength = len(pattern)
        while i <= len(inputStr) - patternLength:
            j = patternLength - 1
            while j >= 0:
                if inputStr[i+j] != pattern[j]:
                    break
                j -= 1
            if j < 0: # match
                return i
            # exist bad chracter, i + bad c
            x = j - bc[ord(inputStr[i + j]) - ord('a')]
            #exist good suffix
            y = 0
            if j < patternLength - 1:
                y = moveByGoodSuffix(j, patternLength, suffix, prefix)
            i = i + max(x, y)
        return -1

    def moveByGoodSuffix(j, length, suffix, prefix):
        k = length - 1 - j # length of good suffix
        if suffix[k] != -1:
            return j - suffix[k] + 1
        r = j + 2
        while r < length - 1:
            if prefix[length - r + 1]:
                return r
        return j + 1

BM的算法实现(优化)

对于坏字符位置以及好后缀的位置的计算属于优化部分,就不直接多说了,上代码

  • 坏字符优化
    def generateBC(self, m):
        bc = [-1] * 26
        for i in range(len(m)):
            bc[ord(m[i]) - ord('a')] = i        
        return bc
···
这里直接利用hash数组,以空间换时间。比较容易理解,就不再赘述了。

- 好后缀计算
def generateGoodSuffix(self, m):
    length = len(m)
    suffix = [-1] * length
    prefix = [False] * length
    for i in range(length - 1):
        j = i
        k = 0
        while j>=0 and m[j] == m[length - 1 - k]:
            j -= 1
            k += 1
        if k: suffix[k] = j + 1
        if j == -1: prefix[k] = True
    return (suffix, prefix)

这个计算是个难点,但也不再赘述了,可以到网上查一下。关键想说的就是,按照算法原理和实现的套路分开理解后,对于实现,可以不再往下,学习到第一步算法原理就行了。算法实现就是优化中的预先计算存储的优化思路。

小结

按照算法原理和算法实现(优化)的套路,可以降低学习的复杂度,对于字符串搜索的KMP算法,也可以用同样的套路来进行学习。KMP算法的算法实现(优化)可以说是非常难以理解的,是一种动态规划的算法,但是如果抓住这个套路,即使理解不了算法实现(优化),我们理解了算法思想也是可以的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352