KMP字符串匹配算法

KMP算法是非常高知名度字符串匹配算法,也非常的牛P,具体在哪呢?这个算法每次我想起来的时候,我就要看一遍,自信的觉得OK,完全掌握没问题,然后过不了几天忘得连个渣都不剩,你懂的.
先说字符串匹配算法,这个我最开始接触java的时候,这个需求可以算是入门级别的.
双重迭代,逐个匹配,直到找到完全匹配,或者主串没有足够长度.

public static int indexOf(String m, String p) {
        int index = -1;
        for (int i = 0; i < m.length() && m.length() - i >= p.length(); i++) {
            index = i;
            for (int j = 0; j < p.length(); j++) {
                if (p.charAt(j) != m.charAt(i + j)) {
                    index = -1;
                    break;
                }
            }
            if (index != -1) {
                return index;
            }
        }
        return index;
    }

这种暴力迭代的算法,因为双重的for循环,导致时间复杂度为O(m*n),其实就是O(n²),
这个算法其实也是JDK中String的indexof(String)的默认算法.考虑到java中String并不是为大文本设计的,编程的String使用场景必然不会有太长的String文本,使用这种算法消耗的时间并不明显.考虑到KMP算法需要额外的开辟空间存放Next数组.所以采用了这种简单地做法.

双重for循环另一方面说,其实就是双指针,ij的回溯.每完成一次模式串的对比,i指针就需要回到i+1的位置,j指针则回到初始位置.KMP算法的核心就是如果在完成原串和模式串的匹配后,能够不回溯i指针,这样i指针就只走一次,那么匹配的复杂度就是O(m).大神们通过利用已知模式串自身的有效信息,完成i指针不回溯,通过移动j指针,让模式串最大化的有效移动.

那么下面要做的事情比较简单,首先是如和做到i指针的不回溯,其实就是下面的推导.
T是原串,P是模式串.index是i指针这一次对比的初始位置
假如匹配的过程中
T[i] != P[j]
已知
T[index,i-1] = P[0,j-1]
假如在0j之间有一个最大k值使得P[0,k-1] = P[j-k,j-1]
那么必然P[0,k-1] = T[i-k, i-1]
这样下次匹配,就可以从T的i位置,P的k位置进行新的比较.

以这个公式作为出发点,下面的重点就是k的计算.
即在0和j之间寻找最大的k值,P[0,k-1] = P[j-k,j-1]这个等式的重点是则需要根据不同的j值来确定不同的k值.
k的推导过程是下边的过程
假设有P[0,k-1] = P[j-k,j-1] (Next[j] = k)
如果P[k] = P[j]
那么可以确定有P[0,k] = P[j-k,j],即Next[j + 1] = k + 1

如果P[k] != P[j]
那么必然可以确定不存在一个大于k的k2值,使得前面的公式P[0,k-1] = P[j-k,j-1]成立.
只能从小于k的子集中查找.
又可以知道k' = Next[k]的值,
也符合P[0,k' -1] = P[k-k' ,k-1],
如果此时存在P[k']==P[j],
那么Next[j+1] = k'+1
这里还需要注意的是求k'这其实是一个递归的过程,因为需要一直递归k前边的子串使得确定不存在k'的值(这里真的相当难理解)

这样通过一次循环既可以推得所有的Next数组.
所以Next数组的求解方案:

    private static int[] getNext(String p) {
        int[] next = new int[p.length()];
        next[0] = -1;
        int k = -1;
        int j = 0;
        while (j < p.length() - 1) {
            if (k == -1 || p.charAt(k) == p.charAt(j)) {
                next[++j] = ++k;// 如果k位置的值和当前位置的值相等,那么当前位置的next[cur] = k + 1
            } else {
                k = next[k];// 找到k'
            }

        }
        next[0] = 0;
        return next;
    }

在有了next数组的基础上,按照上面所述,只需要单次移动i指针就可以完成模式串的匹配查找.因为需要优先计算Next数组,所以,这个算法的复杂度就是O(m+n),不过也多了O(n)的空间.

public static int kmpIndexOf(String m, String p) {
        int index = -1;//记录第一个匹配的位置
        final int[] next = getNext(p);
        int i = 0;//记录原串的i指针,也是下一次匹配时,原串的初始位置
        int k = next[i];//下一次匹配时,模式串的初始位置
        //跳出循环的条件,原串的剩余部分不够模式串长度
        while (i < m.length() && m.length() - i >= p.length()) {
            index = i;//记录当前的位置
            for (int j = k; j < p.length(); j++) {
                i++;//原串单次循环,只要经过一次对比,i指针往前一步
                k = next[j];//更新k值,为下一次P串的初始位置.
                if (p.charAt(j) != m.charAt(index + j)) {//发现不等,跳出开始从i指针的记录位置,重新匹配.
                    index = -1;
                    break;
                }
            }
            if (index != -1) {//匹配完成,全部相等,跳出.返回index
                return index;
            }

        }
        return index;
    }

其实写了这些我也不太会贴图,深感词不达意,也不能说自己完全掌握的明明白白.不过,我也试过,无论我看过多少关于KMP算法的文章,也都感觉不能完全理解.直到自己手动写的时候,去自己思考的时候,就很容易理解了.说白了,看的迷糊没事儿,写一遍就OK.
这也是要写这篇文章的目的,让自己在思考一遍.坦白说,就是自己写给自己看的,也希望过两天我自己还能看得懂.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352

推荐阅读更多精彩内容