我们在一些文本编辑器中经常需要用到的一个功能就是CTRL+F(查找功能),简单来说其实就是在一个大的字符串(之后成为主串)里面查找一个小的字符串(之后成为模式串)是不是被包含在主串当中。一般比较有名的就是KMP算法还有BM算法。这次先简单说一下KMP算法。
KMP(Knuth Morris Pratt)算法,名字就是三个作者的名字拼起来的,没啥特别含义,所以打出来三个字母都不对应的。。。
简单讲一下原理,正常如果我们在做两个字符串匹配的话,就是拿着子串不断的再往后面推,不对应就往后推一位,如下图
这个一步一步推就是传说中的暴力匹配算法-BK(
Brute Force)算法,简单易懂。但是其实在往后推的过程中,是不是可以找到一些规律,可以让我们一次性后移多几位呢?
在模式串和主串匹配的过程中,我们从后面往前面匹配,如果存在不能匹配的地方,那我们在模式串中把这部分称之为坏后缀,而前面可以匹配上的部分称为好前缀,就像下面这个图
当出现坏后缀的时候,如果在好前缀里面存在着一个好的后缀,可以跟前缀匹配,那我们是不是就可以直接挪到好的后缀那里,就比如下图,好前缀里面的aba这一段字符串,我们在好前缀的后面发现了一样的字符串,那我们其实就可以直接挪到后面的aba的位置,再看看后续是否匹配(可能这段会绕一点,其实在这里我们可以只看模式串,后面主要也是通过模式串来进行分析)。虽然图里面可能只是挪多了一位,但是在实际情况下可能就可以提高更多的效率。
按照上面的思路,我们可以把模式串里面的好前缀拿出来,单独分析,其实我们要做的就是把在好前缀里面,看看有没有后缀可以跟他的前缀匹配起来,如果有的话,后缀所在的位置,在进行坏字符的匹配。
我们把好前缀(模式串里面)里面的所有后缀子串中,最长匹配的那个后缀叫做最长可匹配后缀子串,相对应的前缀子串叫做最长可匹配前缀子串,如下图
因为我们用到的其实都是在模式串里面的子串,那在匹配之前,其实我们是不是可以先找找好模式串的所有前缀子串是否有对应的后缀子串呢,有的话我们就记录下来, 做成一个数组,是不是就可以重复使用了,就像下面这个图一样。
我们直接看最后面一列的next值,这个就是我们最后要做出来的数组,数组的下标就是前缀子串的长度,下标对应的值就是在这个长度的前缀子串中可以找到最长匹配后缀的一个前缀最后面字符的下标(这段话描述起来是有点不好讲),就比如下标为2时,前缀字符是aba,第一个a和最后一个a匹配上,所以next[2]=0(第一个a的位置),在下标为3时,前面有一个ab,后面有一个ab,对应上了,而且也是匹配上中最长的一个后缀子串,所以next[3]=1(第一个ab中b的位置)。
在有了后缀算法的情况下,我们就可以试着把算法的逻辑写出来了,代码如下
/*
首先通过下面的getNext方法(好像都叫做失效函数)获得模式字符串的next数组
* 从第一位开始推主串来与模式串进行匹配,如果出现不匹配的情况,就查找次长匹配字符串
* 然后再来判断每一个次长字符串的下一位是不是跟主串的下一位相同,相同则再次进行下一位的判断,通过next数组来减少匹配次数
*/
public int getKMPSelfTest(char[] fullArr, int fullArrLen, char[] modelArr, int modelArrLen) {
//获取nexts数组
int[] nexts = getNexts(modelArr, modelArrLen);
int j = 0;
for (int i = 0; i < fullArrLen; ++i) {
//前面有匹配上的,但是这一位不相等
while (j > 0 && fullArr[i] != modelArr[j]) {
j = nexts[j - 1] + 1;
}
//相等就匹配下一位
if (fullArr[i] == modelArr[j]) {
++j;
}
// 长度与模式串相等就是相当于找到了
if (j == modelArrLen) {
return i - modelArrLen + 1;
}
}
return -1;
}
然后实现是实现nexts数组,这里用到了动态规划的思想,在是用next[j]的时候假设next[j-1]是可以直接是用的常量。
public static int[] getNextsSelfTest(char[] modelStringArr, int m) {
//初始化数组
int[] next = new int[m];
//第一位就算啦
next[0] = -1;
//当前位置上面的字符与前缀字符数组对应的索引,-1则没对应上,0为第一位
int j = -1;
//第一位就不用匹配了
for (int i = 1; i < m; i++) {
//在i之前的位数都匹配,但是i不对应的情况
while (j > -1 && modelStringArr[j + 1] != modelStringArr[i]) {
j = next[j];
}
//当前的i与前缀对应的情况下,下次继续对比下一位字符是否对应
if (modelStringArr[j + 1] == modelStringArr[i]) {
j++;
}
//把当前的j值赋值给字符数组的i索引位置,如果当前不对应的话回到模式传中上一个匹配上的索引下标,对应的话就是next[i-1]+1
next[i] = j;
}
return next;
}
我觉得算法其实在平时用到还是挺多的,也不是说在开发的时候就去自己开发一个算法,但是在学习算法过程中的很多点我觉得在其他地方也是可以用得上的。比如:
- 在需要的时候多申请一个数组或者集合来存储一些之后比较常用的东西。就好比next数组
- 发现规律,并抽象出来。在KMP中,我们将模式串进行位移的大小的规律抽象出来
以上内容主要根据极客时间--数据结构与算法之美课程中的字符串匹配基础一节整理,很好的一个课程,希望大家多支持,哈哈。
本文由博客一文多发平台 OpenWrite 发布!