理解 KMP 算法

1. 概述

字符串是编程中常用的一种数据结构,在各个方面都有广泛的应用,而字符串的一种基本操作就是给定一段长度为N的文本,而后给定一段长度M的pattern字符串,在文本中找到和该模式相同的子字符串。

模式 -> N E E D L E

文本 -> I N A H A Y S T A C K N E E D L E I N A

解决这个问题有一种简单的方法:

  1. 从文本的第一个字符开始,逐一的与模式字符串的每个字符进行比较,如果找到完全符合的,查找结束
  2. 在某个位置失配,则从文本的下一个字符串开始处重复步骤1的操作

这种方法在大多数情况下都能良好的工作,然而在一些极端情况下运行时间可能会和MN成正比,如:

模式 -> A A A A B

文本 -> A A A A A A A A A A A A A A A A B

为了解决这个问题,Knuth, Morris和Pratt发明了一种快速查找子字符串的算法,保证最坏情况下运行时间为O(N), 这种算法被称为KMP算法。

2. KMP 算法

2.1 基本思想

该算法的基本思想是,当出现不匹配当字符串时,我们已经知晓了一部分文本当内容,我们可以通过这部分信息减少比较的次数,如当字母表中只有两个字符A,B时:

模式 -> B A A A A A B

当在第六个字符位置匹配失败,那么我们肯定可以知道文本当前六个字符是B A A A A B,那么我们无需再从第二个字符比起,而是可以从文本的第7个字符开始,与模式的2到7个字符比较,如果其7-13个字符是A A A A A B,则找到了符合模式的子字符串,这样就能减少一次比较。

上面的模式有什么规律嘛?那就是由于模式字符串的开头和结尾处有相同的字符串 B ,所以可以跳过这段相同的字符串。如果模式字符串中已经和待搜索字符串有有9个字符 ABCDEFABC 匹配时,如果第 10 个字符失配,就可以快速的跳过模式的前3个字符,比较模式的第 4 个字符 D 是否和待搜索字符串中当前字符相同。为了记录模式字符串的特性,我们需要记录一些额外的数据,所以从某种角度说 KMP 可以认为是一个用空间换时间的算法,只不过由于一般模式字符串都比较短,所以消耗的额外空间很小。

2.2 next 数组的计算

int[] makeNext(String pat)
{
    int q,k;//q:模版字符串下标;k:最大前后缀长度
    int m = pat.length;//模版字符串长度
    int[] next = new int[pat.length];
    next[0] = 0;//模版字符串的第一个字符的最大前后缀长度为0
    for (q = 1,k = 0; q < m; ++q)//for循环,从第二个字符开始,依次计算每一个字符对应的next值
    {
        while(k > 0 && pat.charAt(q) != pat.charAt(k))//递归的求出P[0]···P[q]的最大的相同的前后缀长度k
            k = next[k-1];          //这个while循环是整段代码的精髓所在
        if (pat.charAt(q) == pat.charAt(k))//如果相等,那么最大相同前后缀长度加1
        {
            k++;
        }
        next[q] = k;
    }
}

解释一下上面到代码,q代表当前已经计算到模板的第q个位置,k为位置q之前的最大相同前后缀长度。

那么当第k+1个字符(位置 k 处的字符,注意下标由 0 开始)与第q个字符相等时,我们就可以确定当前位置的最大前后缀长度应当为k+1.

然而,当第k+1个字符与第q个字符不相等时,应该如何处理呢?我们知道此时pat.charAt(k)已经和pat.charAt(q)失配了,然而pat.charAt(q-k) ··· pat.charAt(q-1)又与pat.charAt(0) ···pat.charAt(k-1)相同,那么我们如果我们能找到0到k-1内的最大前后缀字符串,这个字符串肯定也和q-k到q-1的最后一段相同,此时我们就可以继续看看这个字符串的后面一个字符是否和pat.charAt(q)相同了,如果不相同,则可以继续重复这个步骤直到 k = 0,说明没有共同的前后缀,必须从模式的第一个字符开始比较。

得到next数组后,匹配的过程就很简单了:

如果匹配到文本到某个位置i的时候失配了,此时的模式指针值为j,那么从next就能读出此时的最长前后缀长度,也即是下一个比较的j的值(j应该在最长前缀子串的后面一位, 因为数组下标从0开始,所以两者正好相同),如下图:

说明

这里在 j=6 处失配,next[5] 为 2,所以将 j 改为 2

说明2

这里在 j=2 处失配,next[1] 为0,所以 j 改为0:

说明3

这里 j 为 0 时就不匹配,需要将 i 加1。

重复以上步骤就能找到相应的子字符串。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容