KMP算法

KMP算法用于子字符串查找(匹配)。

KMP是三个科学家[Knuth-Morris-Pratt]发明的,旨在对暴力匹配算法的改进,时间复杂度从 O(m*n) 减到 O(m+n)

  • KMP算法的重点难点在于理解 PMT(Partial Match Table) “部分匹配表”,这个表决定每次遇到不匹配时, 新的子字符串的查找位置
  • 比如从字符串S1=> "BBC ABCDAB ABCD ABCDABDE" 中查找 S2=> "ABCDABD",暴力破解的算法思路是:
    1. 拿S1的第一位,和S2的第一位对比
    2. 不相等则移位到S1的下一位,S2则从头开始匹配,即拿S1的第二位,对比S2的第一位,直到匹配到为止
    3. 相等则两个字符串数组指针均后移一位
    4. 直到子字符串指针移到末尾,或者要查找的字符串指针移到末尾

KMP算法主要解决第二步,即不匹配发生时,力求S1的指针位置不发生变化,S2指针位置移动最少。
这么做的依据是,在前一次的比较过程中,其实我们已经知道了一些信息,因此避免多余的比较。比如比较到了S1的第四位,子字符串的前六位"ABCDAB"都可以匹配,但是第七位"D"无法和S1的" "匹配,

  • 如果按照暴力的思路,这时应该S1的指针回到第五位,S2的指针归零。但是我们知道,S2[0] != S2[1],而S2[1] = S1[5],所以,S2[0] != S1[5],这一步在之前的比较重,就已经确定了,所以完全可以避免
  • 同理,因为S2[0] != S2[2], 但是S2[2] = S1[6],所以S2[0] != S1[6],所以也可以避免重复比较。
  • 问题的关键就在于,如果我们不动S1的指针(目前指向S1[10]),那么S2的指针应该移动到第几位

先说结论,应该移动到 当前子字符串指针所在位置的 “部分匹配值”的位置

部分匹配值

那么什么是部分匹配值呢,为什么要移动这个位置是对的呢
某个位置的部分匹配值,就是从开头到当前位置,这一段字符的相同前缀与后缀的最大长度。
比如 abcabc 的前缀有 {a, ab, abc, abca, abcab}, 后缀有 {c, bc, abc, cabc, bcabc}, 唯一相同的只有abc,所以这个字符串在第六位的部分匹配值是3;而他的第五位的部分匹配值,就是计算abcab的部分匹配值,即从{a, ab, abc, abca} 与 {b, ab, cab, bcab}中选出相同的前后缀的最大长度,即2;

所以,"ABCDABD"的部分匹配值表为

字符 A B C D A B D
位置 1 2 3 4 5 6 7
部分匹配值 0 0 0 0 1 2 0
为什么部分匹配值是正确的

使用S1=> "BBC ABCDAB ABCD ABCDABDE" 中查找 S2=> "ABCDABD"来说明:
图一

这时:
i = 10
j = 6
查表知,next[j] = 2

所以,j应该移动到2的位置,即:
image.png
  1. 图一的【j】前的子字符串的部分匹配值为2,说明,子字符串的前两位和最后两位是相同的
  2. 【i】位置前的6位和 【j】前的6位相同
  3. 要搜索的字符串位置【i】的前两位,和子字符串的最前两位相同,所以可以跳过
  4. 所以直接比较位置【i】和新的位置【j】

所以部分匹配值是正确的

附上PHP版代码:

function getKmpNext($string) {
    $strlen = strlen($string);
    $i = 0;
    $j = - 1;


    $next[0] = -1;

    while ($i < $strlen)
    {
        if ($j == -1 || $string[$i] == $string[$j])
        {
            ++$i;
            ++$j;
            $next[$i] = $j;
        }
        else
            $j = $next[$j];
    }

    return $next;
}

function kmp($string, $substr)
{
    $i = 0; $j = 0;
    $strlen = strlen($string);
    $sublen = strlen($substr);
    $next = getKmpNext($substr);

    while($i < $strlen && $j < $sublen) {
        if($j == -1 || $string[$i] === $substr[$j]) {
            $i ++;
            $j ++;
         }
        else {
            $j = $next[$j];
        }
    }

    if($j == $sublen) {
        return $i - $j;
    }

    return "Not found";
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容

  • KMP 算法 1. 暴力匹配算法 在分析KMP算法前, 先看看暴力匹配算法是如何工作的.暴力匹配算法的基本思想是:...
    XZhongWen阅读 475评论 0 0
  • 数据结构与算法--KMP算法查找子字符串 部分内容和图片来自这三篇文章: 这篇文章、这篇文章、还有这篇他们写得非常...
    sunhaiyu阅读 1,733评论 1 21
  • 原链接:KMP算法详解|CloudWong 传统的字符串匹配模式(暴力循环) 子串的定位操作通常称作串的串的匹配模...
    简Cloud阅读 3,907评论 1 22
  • 一、定义 KMP(Knuth-Morris-Pratt)算法,其实是对暴力查找算法的优化。在暴力查找算法中,用于追...
    null12阅读 820评论 0 0
  • 文章大纲:1.KMP算法概念2.KMP算法中最核心的next[] 数组是如何生成的3.使用KMP算法 匹配字符串 ...
    柠檬乌冬面阅读 814评论 0 3