【算法图文动画详解系列】KMP 字串匹配搜索算法

问题描述:字串匹配搜索

假设现在我们面临这样一个问题:有一个文本串S,和一个模式串P,现在要查找P在S中的位置,怎么查找呢?

暴力匹配算法

如果用暴力匹配的思路,并假设现在文本串S匹配到 i 位置,模式串P匹配到 j 位置,则有:

1、如果当前字符匹配成功(即S[i] == P[j]),则i++,j++,继续匹配下一个字符;

2、如果失配(即S[i]! = P[j]),令i = i - (j - 1),j = 0。相当于每次匹配失败时,i 回溯,j 被置为0。

理清楚了暴力匹配算法的流程及内在的逻辑,咱们可以写出暴力匹配的代码,如下:

int ViolentMatch(char* s, char* p)
{
    int sLen = strlen(s);
    int pLen = strlen(p);
 
    int i = 0;
    int j = 0;
    while (i < sLen && j < pLen)
    {
        if (s[i] == p[j])
        {
            //①如果当前字符匹配成功(即S[i] == P[j]),则i++,j++    
            i++;
            j++;
        }
        else
        {
            //②如果失配(即S[i]! = P[j]),令i = i - (j - 1),j = 0    
            i = i - j + 1;
            j = 0;
        }
    }
    //匹配成功,返回模式串p在文本串s中的位置,否则返回-1
    if (j == pLen)
        return i - j;
    else
        return -1;
}

KMP 算法

Knuth-Morris-Pratt 字符串查找算法,简称为 “KMP算法”,常用于在一个文本串S内查找一个模式串P 的出现位置,这个算法由Donald Knuth、Vaughan Pratt、James H. Morris三人于1977年联合发表,故取这3人的姓氏命名此算法。

The algorithm of Knuth, Morris and Pratt [KMP 77] makes use of the information gained by previous symbol comparisons. It never re-compares a text symbol that has matched a pattern symbol. As a result, the complexity of the searching phase of the Knuth-Morris-Pratt algorithm is in O(n).
However, a preprocessing of the pattern is necessary in order to analyze its structure. The preprocessing phase has a complexity of O(m). Since mless or equaln, the overall complexity of the Knuth-Morris-Pratt algorithm is in O(n).

KMP 算法核心原理示意图

求解前缀表的核心思想

把前缀 P[0:j] 当成是 P 的模式串(P[0:i] ),P 本身当成是查找的文本。

next 前缀表数组,上图中是 lps 数组。

KMP源代码

极简版本的 KMP 算法源代码:

next数组首位用-1来填充,这样在处理长度的时候,思维上不会很绕。

/**
 * getNext (pattern) 函数: 计算字符串 pattern 的最大公共前后缀的长度 (max common prefix suffix length)
 */
fun getNext(P: String): IntArray {
    val M = P.length
    val next = IntArray(M + 1, { -1 })
    // i: current index of P
    var i = 0
    // j: current index of the longest prefix of P
    var j = -1
    next[0] = -1 // next[i] = j

    // compute next[i]
    while (i < M) {
        // 如果当前字符匹配失败(即P[i] != P[j]) && j != 0 ,则令 i 不变,j = next[j]。
        // 此举意味着失配时,"模式串"即前缀P[0:j], 不再从 0 位置开始比对,直接从 j = next [j] 位置开始比对。
        while (j >= 0 && P[i] != P[j]) {
            j = next[j]
        }
        i++
        j++
        next[i] = j
    }
    return next
}


/**
 * kmp substring search algorithm
 * @param S : the source text string
 * @param P : the search pattern string
 */
fun kmp(S: String, P: String): Int {
    val N = S.length
    val M = P.length

    if (P.isEmpty()) {
        return 0
    }

    // j: the current index of P
    var j = 0
    // i: the current index of T
    var i = 0
    // next array
    val next = getNext(P)

    while (i < N) {
        while (j >= 0 && S[i] != P[j]) {
            j = next[j]
        }
        i++
        j++
        // when j == M, then pattern is founded in text, return the index (i - j)
        if (j == M) {
            return i - j
        }
    }
    return -1
}

fun main() {
    var text = "addaabbcaabffffggghhddabcdaaabbbaab"
    var pattern = "aabbcaab"
    print("${getNext(pattern).joinToString { it.toString() }} \n")

    var index = kmp(text, pattern)
    println("$pattern is the substring of $text, the index is: $index")

    text = "hello"
    pattern = "ll"
    print("${getNext(pattern).joinToString { it.toString() }} \n")

    index = kmp(text, pattern)
    println("$pattern is the substring of $text, the index is: $index")

    text = "abbbbbbcccddddaabaacabdcddaabbbbaad"
    pattern = "aabaacab"
    print("${getNext(pattern).joinToString { it.toString() }} \n")

    index = kmp(text, pattern)
    println("$pattern is the substring of $text, the index is: $index")

}

// 输出:
//-1, 0, 1, 0, 0, 0, 1, 2, 3
//aabbcaab is the substring of addaabbcaabffffggghhddabcdaaabbbaab, the index is: 3
//-1, 0, 1
//ll is the substring of hello, the index is: 2
//-1, 0, 1, 0, 1, 2, 0, 1, 0
//aabaacab is the substring of abbbbbbcccddddaabaacabdcddaabbbbaad, the index is: 14

另外一个版本代码:

/**
 * getNext (pattern) 函数: 计算字符串 pattern 的最大公共前后缀的长度 (max common prefix suffix length)
 */
fun getNext(P: String): IntArray {

    val M = P.length
    val next = IntArray(M, { -1 })

    // i: current index of P
    var i = 1
    // j: current index of the longest prefix of P
    var j = 0

    next[0] = 0
    // compute next[i]
    while (i < M) {
        if (P[i] == P[j]) { // ①
            val len = j + 1
            next[i] = len
            i++
            j++
        } else {
            // 如果当前字符匹配失败(即P[i] != P[j]) && j != 0 ,则令 i 不变,j = next[j-1]。
            // 此举意味着失配时,"模式串"即前缀P[0:j], 不再从 0 位置开始比对,直接从 next [j-1] 位置开始比对。
            if (j != 0) {
                j = next[j - 1] // j shift left, jmp ①
            } else {
                next[i] = 0 // now j is 0, next i
                i++
            }
        }
    }

    return next
}


/**
 * kmp substring search algorithm
 * @param S : the source text string
 * @param P : the search pattern string
 */
fun kmp(S: String, P: String): Int {
    val N = S.length
    val M = P.length

    if (P.isEmpty()) {
        return 0
    }

    // j: the current index of P
    var j = 0
    // i: the current index of T
    var i = 0
    // next array
    val next = getNext(P)

    while (i < N - M + 1) {
        if (S[i] == P[j]) {
            i++
            j++
        } else {
            if (j > 0) {
                // 当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j-1]。
                // 此举意味着失配时,模式串P 不再从 0 位置开始比对,直接从 next [j-1] 位置开始比对。
                j = next[j - 1]
            } else {
                i++
            }
        }

        // when j == M, then pattern is founded in text
        if (j == M) {
            return i - M
        }
    }

    return -1
}

fun main() {
    var text = "addaabbcaabffffggghhddabcdaaabbbaab"
    var pattern = "aabbcaab"
    print("${getNext(pattern).joinToString { it.toString() }} \n")

    var index = kmp(text, pattern)
    println("$pattern is the substring of $text, the index is: $index")

    text = "hello"
    pattern = "ll"
    print("${getNext(pattern).joinToString { it.toString() }} \n")

    index = kmp(text, pattern)
    println("$pattern is the substring of $text, the index is: $index")

    text = "abbbbbbcccddddaabaacabdcddaabbbbaad"
    pattern = "aabaacab"
    print("${getNext(pattern).joinToString { it.toString() }} \n")

    index = kmp(text, pattern)
    println("$pattern is the substring of $text, the index is: $index")

}

// 输出:
//0, 1, 0, 0, 0, 1, 2, 3
//aabbcaab is the substring of addaabbcaabffffggghhddabcdaaabbbaab, the index is: 3
//0, 1
//ll is the substring of hello, the index is: 2
//0, 1, 0, 1, 2, 0, 1, 0
//aabaacab is the substring of abbbbbbcccddddaabaacabdcddaabbbbaad, the index is: 14

参考资料

https://www.inf.hs-flensburg.de/lang/algorithmen/pattern/kmpen.htm
https://blog.csdn.net/v_july_v/article/details/7041827

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容