KMP算法学习笔记

我们在一些文本编辑器中经常需要用到的一个功能就是CTRL+F(查找功能),简单来说其实就是在一个大的字符串(之后成为主串)里面查找一个小的字符串(之后成为模式串)是不是被包含在主串当中。一般比较有名的就是KMP算法还有BM算法。这次先简单说一下KMP算法
KMP(Knuth Morris Pratt)算法,名字就是三个作者的名字拼起来的,没啥特别含义,所以打出来三个字母都不对应的。。。
简单讲一下原理,正常如果我们在做两个字符串匹配的话,就是拿着子串不断的再往后面推,不对应就往后推一位,如下图


这个一步一步推就是传说中的暴力匹配算法-BK(
Brute Force)算法,简单易懂。但是其实在往后推的过程中,是不是可以找到一些规律,可以让我们一次性后移多几位呢?


在模式串和主串匹配的过程中,我们从后面往前面匹配,如果存在不能匹配的地方,那我们在模式串中把这部分称之为坏后缀,而前面可以匹配上的部分称为好前缀,就像下面这个图


当出现坏后缀的时候,如果在好前缀里面存在着一个好的后缀,可以跟前缀匹配,那我们是不是就可以直接挪到好的后缀那里,就比如下图,好前缀里面的aba这一段字符串,我们在好前缀的后面发现了一样的字符串,那我们其实就可以直接挪到后面的aba的位置,再看看后续是否匹配(可能这段会绕一点,其实在这里我们可以只看模式串,后面主要也是通过模式串来进行分析)。虽然图里面可能只是挪多了一位,但是在实际情况下可能就可以提高更多的效率。

按照上面的思路,我们可以把模式串里面的好前缀拿出来,单独分析,其实我们要做的就是把在好前缀里面,看看有没有后缀可以跟他的前缀匹配起来,如果有的话,后缀所在的位置,在进行坏字符的匹配。
我们把好前缀(模式串里面)里面的所有后缀子串中,最长匹配的那个后缀叫做最长可匹配后缀子串,相对应的前缀子串叫做最长可匹配前缀子串,如下图

因为我们用到的其实都是在模式串里面的子串,那在匹配之前,其实我们是不是可以先找找好模式串的所有前缀子串是否有对应的后缀子串呢,有的话我们就记录下来, 做成一个数组,是不是就可以重复使用了,就像下面这个图一样。

我们直接看最后面一列的next值,这个就是我们最后要做出来的数组,数组的下标就是前缀子串的长度,下标对应的值就是在这个长度的前缀子串中可以找到最长匹配后缀的一个前缀最后面字符的下标(这段话描述起来是有点不好讲),就比如下标为2时,前缀字符是aba,第一个a和最后一个a匹配上,所以next[2]=0(第一个a的位置),在下标为3时,前面有一个ab,后面有一个ab,对应上了,而且也是匹配上中最长的一个后缀子串,所以next[3]=1(第一个ab中b的位置)。


在有了后缀算法的情况下,我们就可以试着把算法的逻辑写出来了,代码如下

/*
首先通过下面的getNext方法(好像都叫做失效函数)获得模式字符串的next数组 
*  从第一位开始推主串来与模式串进行匹配,如果出现不匹配的情况,就查找次长匹配字符串 
*  然后再来判断每一个次长字符串的下一位是不是跟主串的下一位相同,相同则再次进行下一位的判断,通过next数组来减少匹配次数
*/
public int getKMPSelfTest(char[] fullArr, int fullArrLen, char[] modelArr, int modelArrLen) {
    //获取nexts数组
    int[] nexts = getNexts(modelArr, modelArrLen);
    int j = 0;
    for (int i = 0; i < fullArrLen; ++i) {
        //前面有匹配上的,但是这一位不相等
        while (j > 0 && fullArr[i] != modelArr[j]) {
            j = nexts[j - 1] + 1;
        }
        
        //相等就匹配下一位
        if (fullArr[i] == modelArr[j]) {
            ++j;
        }
        // 长度与模式串相等就是相当于找到了
        if (j == modelArrLen) {
            return i - modelArrLen + 1;
        }
    }
    return -1;
}

然后实现是实现nexts数组,这里用到了动态规划的思想,在是用next[j]的时候假设next[j-1]是可以直接是用的常量。

public static int[] getNextsSelfTest(char[] modelStringArr, int m) {
    //初始化数组
    int[] next = new int[m];
    //第一位就算啦
    next[0] = -1;
    //当前位置上面的字符与前缀字符数组对应的索引,-1则没对应上,0为第一位
    int j = -1;
    //第一位就不用匹配了
    for (int i = 1; i < m; i++) {
        //在i之前的位数都匹配,但是i不对应的情况
        while (j > -1 && modelStringArr[j + 1] != modelStringArr[i]) {
            j = next[j];
        }
        //当前的i与前缀对应的情况下,下次继续对比下一位字符是否对应
        if (modelStringArr[j + 1] == modelStringArr[i]) {
            j++;
        }
        //把当前的j值赋值给字符数组的i索引位置,如果当前不对应的话回到模式传中上一个匹配上的索引下标,对应的话就是next[i-1]+1
        next[i] = j;
    }
    return next;
}

我觉得算法其实在平时用到还是挺多的,也不是说在开发的时候就去自己开发一个算法,但是在学习算法过程中的很多点我觉得在其他地方也是可以用得上的。比如:

  1. 在需要的时候多申请一个数组或者集合来存储一些之后比较常用的东西。就好比next数组
  2. 发现规律,并抽象出来。在KMP中,我们将模式串进行位移的大小的规律抽象出来

以上内容主要根据极客时间--数据结构与算法之美课程中的字符串匹配基础一节整理,很好的一个课程,希望大家多支持,哈哈。

本文由博客一文多发平台 OpenWrite 发布!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352