图解kmp算法-通俗易懂kmp算法

最近研究了一下kmp算法(Knuth-Morris-Pratt),百度了好多帖子,看的稀里糊涂。为了自己可以简单理解(还有最重要的next数组),也为了自己以后忘记的话不用再满世界百度,索性将自己的理解记录下来

用途

KMP算法,具体谁发明的就不说了,它主要的用途就是查找字符串,查找字符串"ab"(目标字符串)在字符串"abc"(待查找字符串)中出现的位置。换句话说,就是查找字符串"abc"是否包含字符串"ab",如果包含,返回包含的起始位置
如下两个字符串:

str = "dabxabxababxabwabxad" (待查找字符串)
ptr = "abxabwabxad" (目标字符串)

需要计算str中是否含有ptr,如果有,返回str中出现的起始位置,如果没有,返回-1
通过肉眼观察我们发现,str中是包含ptr的
dabxabxababxabwabxad,ptr是在str中第9位(下标从0开始)开始出现的,那么返回的结果就是9

实现

先看一下go的实现代码(只是为了方便才用go实现,使用map生成的next数组效率很低)

func main() {
    str := "dabxabxababxabwabxad"
    ptr := "abxabwabxad"
    i := kmp(str, ptr)
    fmt.Println(i)
}

func next(findStr string, num int) (next map[int]int) {
    k := 0
    next = make(map[int]int, num)
    next[0] = k
    for i := 1; i < num; i++ {
        for k > 0 && findStr[k] != findStr[i] {
            k = next[k-1]
        }
        if findStr[k] == findStr[i] {
            k++
        }
        next[i] = k
    }
    return next
}

func kmp(str string, findStr string) int {
    strL := len(str)
    findStrL := len(findStr)
    k := 0
    nextArr := next(findStr, findStrL)
    for i := 0; i < strL; i++ {
        for k > 0 && findStr[k] != str[i] {
            k = nextArr[k-1]
        }
        if findStr[k] == str[i] {
            k++
        }
        if k == findStrL {
            return i - k + 1
        }
    }
    return -1
}

算法由两部分组成
1、计算ptr每一位及之前的字符串中,前缀和后缀公共部分的最大长度的next数组
2、匹配ptr和str,当ptr失配时,利用next数组,实现ptr的最大后移,从而避免不必要的匹配,减少匹配次数
by smoke_zl

计算next数组

前缀和后缀公共部分的最大长度

一个字符串ababa,他的前缀是可以是a,ab,aba,abab(不包含最后一位),后缀是a,ba,aba,baba(不包含第一位)
前缀后缀公共部分就是aaba,公共部分最大就是aba,公共部分的最大长度就是3

next数组

next数组是ptr每一位及之前的字符串中,前缀和后缀公共部分的最大长度的集合
比如ptr字符串的长度是11(abxabwabxad),那么next数组就有11个元素

  • next[0]表示ptr前一位a中,前缀和后缀公共部分的最大长度,由于a中没有前缀和后缀,所以next[0]=0
  • next[1]表示ptr前两位ab中,前缀和后缀公共部分的最大长度,ab的前缀是a,后缀是b,没有公共部分,所以next[1]=0
    同理
  • next[2]=0(abx中无公共前后缀)
  • next[3]=1(abxa公共前后缀最长为a,长度为1)
  • next[4]=2(abxab公共前后缀最长为ab,长度为2)
  • next[5]=0(abxabw中无公共前后缀)
  • next[6]=1(abxabwa公共前后缀最长为a,长度为1)
  • next[7]=2(abxabwab公共前后缀最长为ab,长度为2)
  • next[8]=3(abxabwabx公共前后缀最长为abx,长度为3)
  • next[9]=4(abxabwabxa公共前后缀最长为abxa,长度为4)
  • next[10]=0(abxabwabxad中无公共前后缀)
下面用图文来解释,next函数是如何计算next数组的值的
kmp.png

上图第一行,左边i值为ptr下标的值,中间是ptr字符串的每一位,右边是对应的next[i]值,从 i = 0 开始,分析每一行的计算过程

  • i = 0
    由于字符串的前一位只有一个字符,是没有前后缀的,所以next[0] = 0,对应代码
k := 0
next[0] = k
  • i = 1
    从上一次循环,可知 k = 0,既不满足代码中 k > 0 && findStr[k] != findStr[i]的判断,也不满足 findStr[k] == findStr[i]的判断,所以最后next[i] = k,也就是next[1] = 0
  • i = 2
    同上,k = 0,next[2] = 0
  • i = 3
    k = 0,满足findStr[k] == findStr[i]的判断,执行k++,这时 k = 1,最后next[i] = k,也就是next[3] = 1
  • i= 4
    k = 1, 满足findStr[k] == findStr[i]的判断,执行k++,这时 k = 2,最后next[i] = k,也就是next[4] = 2
  • i = 5
    k = 2,满足 k > 0 && findStr[k] != findStr[i],执行k = next[k-1],k = next[2-1] = next[1] = 0
    很多人(包括我)都很不理解k = next[k-1]这行代码的意思,这里先不做解释,后边 i = 10 的时候说
  • i = 6...i = 9
    i = 6 到 i = 9 的逻辑和上边相似,就不重复说了,可以参照着图看
  • i = 10
    k = 4,满足 k > 0 && findStr[k] != findStr[i],执行k = next[k-1],在这里仔细说下k = next[k-1]的意思
    当 i = 9 执行完后,字符串指针为下图的样子,此时前后缀公共部分的最大字符串为abxa
    kmp1.png

    再看abxa字符串,abxa字符串的前后缀公共部分的最大字符串为a,所以 i = 9 时,前后缀公共部分可以分解为下图的形式
    kmp2.png

    所以当 i = 10 时,如果k > 0 && findStr[k] != findStr[i],也就是 k指向的b不等于i指向的d,如图
    kmp3.png

    那么k指针就会执行k = next[k-1]回到前缀的公共前缀继续比较,也就是
    kmp4.png

    这样,就保证最效率的匹配

匹配字符串

第一部分利用next函数得到了next数组,下一步执行kmp函数,对ptr和str进行匹配,并当ptr和str失配时,利用next数组,进行最大位移,由于kmp函数和next函数差不多,这里就不详细讲了,直接上图


all.png

参考:
http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html
https://blog.csdn.net/qq_30974369/article/details/74276186

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352