后缀变前缀的KMP算法 2020-02-26(未经允许,禁止转载)

给定一个长度为n的主字符串str和一个长度为m的pattern(如str = 'qwertyuiopasdfghjkl',pattern = 'yuiop'),需要从str中找到被pattern命中的子串,你怎么做?

最简单的做法:BF算法

BF是bruteforce的缩写,暴力算法,事实上这根本不能称之为一个算法,基本思想就是【逐个检查字符是否匹配,不匹配则将pattern后移一个字符位置然后继续检查】。每次不匹配只后移动一个字符位置,做了很多无谓的比较,太慢了,时间复杂度O(n*m)

改进算法:KMP算法

先说结论,KMP算法相比BF算法的改进之处在于,每次移动都直接移动到下一个能够匹配pattern的起始字符的位置,【跳步移动】而不是一个一个字符地移动+【不总是从首个字符开始比较,减少了无谓的比较】。时间复杂度O(n+m)

1.KMP算法的基本思想——【后缀变前缀】:


主字符串"ababadababacambabacaddababacasdsd"(其中的斜体部分是匹配部分)
pattern串"ababaca"
为例

  • 确定match_s。记主字符串str中和模式pattern已匹配的前缀串为match_s,【KMP的一切都基于这个match_s】
    如,最开始时,主字符串中的已匹配的前缀串match_s为"ababa"
  • 寻找最长前后缀。从match_s中找出最长的相等前后缀prefix and suffix
    如,match_s为"ababa"时,prefix(前3个字符) = "aba" = suffix(后3个字符)
  • 后缀变前缀。利用prefix和suffix相等的关系,将pattern从prefix位置移动至suffix位置,开始下一次匹配过程

完整的用例过程如下:

  • 主字符串str和模式pattern首次尝试匹配时,前5个字符匹配,得到match_s为"ababa";
  • match_s为"ababa"时,prefix(前3个字符) = "aba" = suffix(后3个字符)
  • 后缀变前缀。模式pattern向右移动2个字符单位,使得pattern新的起始位置与suffix重合,开始下一次匹配过程

2.利用next数组做到后缀变前缀

通过刚才的例子,pattern向右移动2个字符单位,可以使得pattern新的起始位置与suffix重合。那么这个2怎么得来的呢?
很简单

match_s = "ababa",
suffix = "aba",

len(match_s) - len(suffix) = steps => 5 - 3 = 2

因此,只需要得到match_s和最长前后缀就可以计算steps

一般地,使用一个长度为【m+1】的一维数组next存储match_s和最长前后缀信息,next的下标表示match_s的长度,存储的值表示最长(前)后缀的长度

对于pattern = "ababaca",match_s可以是'', 'a', 'ab', 'aba', 'abab', 'ababa', 'ababac', 共7个,因此对应next数组的长度为7
然后再把所有的match_s的最长(前)后缀的长度填入数组就大功告成
可以看到,next数组只与pattern有关,而与str无关

KMP算法之next数组

【重点】next数组的填充,可以通过动态规划实现

  • 显然,next[0]和next[1]直接就是0。也就是说,next这个dp数组的初始状态是已知的,只需要自底向上通过状态转移方程填满next数组后面的空位就O了
  • 对于next[i](i >= 2),有:next[i]对应的match_s = next[i-1]对应的match_s + pattern[i-1]。那么显然也有,next[i]对应match_s的可能最长后缀suffix = next[i-1]对应的match_s的最长后缀 + pattern[i-1],如,'abab'的可能最长后缀 = 'aba'的最长后缀'a' + 'b' = 'ab';那么我们要验证'ab'这个可能的最长后缀到底是不是真的最长后缀。
    令prefix_len = next[i-1]
    • 如果pattern[i-1] == pattern[prefix_len](prefix_len的值正好标记了对应的match_s最长前缀的下一位置),即后缀上增加的字符 = 前缀上增加的字符,则next[i] = next[i-1] + 1
    • 如果pattern[i-1] != pattern[prefix_len],即后缀上增加的字符 != 前缀上增加的字符,那么next[i] 就不能与 next[i-1] 建立起转移关系,怎么办?事实上,next[i] 还可以尝试与 next[i-1]之前的元素建立联系。例如,我们可以把计算'ABCA|ABCA|B'最长前后缀的问题,转换成计算'ABCA|B'最长前后缀的问题,就是把pattern【截断一截】,这样一来next[9] = next[next[prefix_len]] + 1 = next[4] + 1 = 1 + 1 = 2。如果截断一次仍然不能建立联系,那就2次

计算next数组的代码如下:

def getNextArray(pattern):
    # 创建next数组
    next_array = [0 for i in range(len(pattern))]
    prefix_len = 0
    # 开始填充next_array数组
    for i in range(2, len(pattern)):
        # 上一前缀长度
        prefix_len = next[prefix_len]
        # 加上prefix_len != 0是为了保证while能够正确结束,避免一直存在pattern[i] != pattern[prefix_len]产生死循环
        while pattern[i] != pattern[prefix_len] and prefix_len != 0:
            # 截断pattern,更新截断后上一前缀的长度
            prefix_len = next[prefix_len]
        if pattern[i] == pattern[prefix_len]:
            prefix_len += 1
        # 填充next_array[i]
        next_array[i] = prefix_len
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 230,825评论 6 546
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 99,814评论 3 429
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 178,980评论 0 384
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 64,064评论 1 319
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 72,779评论 6 414
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 56,109评论 1 330
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 44,099评论 3 450
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 43,287评论 0 291
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 49,799评论 1 338
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 41,515评论 3 361
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 43,750评论 1 375
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 39,221评论 5 365
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,933评论 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 35,327评论 0 28
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 36,667评论 1 296
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 52,492评论 3 400
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 48,703评论 2 380

推荐阅读更多精彩内容

  • 字符串匹配KMP算法详解 1. 引言 以前看过很多次KMP算法,一直觉得很有用,但都没有搞明白,一方面是网上很少有...
    张晨辉Allen阅读 2,430评论 0 3
  • 官网 中文版本 好的网站 Content-type: text/htmlBASH Section: User ...
    不排版阅读 4,433评论 0 5
  • 姓名:赵应鹏 学号19011210552 【嵌牛导读】:在给定一个文本字符串和一个模式字符串的时候,在文本字符串中...
    小白110阅读 958评论 0 0
  • title: 串的模式匹配算法之kmptags: 数据结构与算法之美author: 辰砂tj 1.引言 首先我们需...
    tojian阅读 994评论 0 0
  • 问题描述 KMP算法是用与字符串匹配的算法,给定文本串,在文本串中寻找模式串,如果找到匹配的模式串便返回文本串首次...
    片帆沙岸v阅读 326评论 0 0