提到kmp算法就不得不说next数组,要得到next数组又不得不去求最大长度表
文本串S acabaabaabcaccaabc
模式串P abaabcac
kmp算法:查找模式串P是否存在文本串S中,若存在返回下标位置;若不存在,返回-1
最大长度表(模式串P所有子串的前缀后缀的公共元素最大长度)
- 前缀:除最后一个字符,子串的的所有集合
- 尾缀:除第一个字符,子串的的所有集合(从尾部开始拿)
比如,子串为 abaab
那么它的前缀为:
a
a b
a b a
a b a a
它的后缀为:
b
a b
a a b
b a a b
所以该子串的最大长度为2,前缀ab等于后缀ab
而next数组为最大长度值整体右移一位,然后下标为0的值为-1
kmp算法操作流程
假设现在文本串 S 匹配到 i 位置,模式串 P 匹配到 j 位置
- 如果 j = -1,或者当前字符匹配成功(即 S[i] == P[j] ),都令 i++,j++,继续匹配下一个字符;
- 如果 j != -1,且当前字符匹配失败(即 S[i] != P[j] ),则令 i 不变,j = next[j]
代码实现
// next数组
public static int[] getNext(String pStr) {
int len = pStr.toCharArray().length;
// 最大长度表
int[] maxLength = new int[len];
int[] next = new int[len];
for (int i = 0; i < len; i++) {
if (i == 0) {
maxLength[i] = 0;
} else {
String s = pStr.substring(0, i + 1);
int l = s.length();
for (int j = 0; j < l - 1; j++) {
if (s.substring(0, j + 1).equals(s.substring(l - j - 1, l))) {
int max = s.substring(0, j + 1).length();
if (max > maxLength[i]) {
maxLength[i] = max;
}
}
}
}
}
for (int i = 0; i < len; i++) {
if (i != 0)
next[i] = maxLength[i - 1];
else
next[i] = -1;
}
return next;
}
private static int kmp(char[] s, String pStr) {
int[] next = getNext(pStr);
char[] p = pStr.toCharArray();
int pLen = p.length;
int i = 0, j = 0;
while (i < s.length && j < pLen) {
if (j == -1 || s[i] == p[j]) {
i++;
j++;
} else if (s[i] != p[j]) {
j = next[j];
}
}
// 如果匹配成功返回 模式串在 文本串中的下标
if (j == pLen)
return i - j;
else
return -1;
}