KMP算法是一种用于解决字符串匹配的算法,比如说我们要在一个长字符串当中查找一个段字符串是否存在,就需要使用这种算法。
这里先介绍KMP算法当中next数组的构造方法
public int[] createNextArray(String str1) {
int[] subArray = new int[str1.length()];
char[] p = str1.toCharArray();
subArray[0] = -1;//
int j = 0;//当前遍历的字符数组的位置
int len = -1;//设置为-1是为了直接构造为next数组,len表示的是当前已经匹配到的最长的前缀和后缀的长度
while (j < p.length - 1) {
if (len == -1 || p[len] == p[j]) {
len++;
j++;
subArray[j] = len;
} else {
len = subArray[len];
}
}
return subArray;
}
前缀:
下面介绍《部分匹配表》是如何产生的。
首先,要了解两个概念:"前缀"和"后缀"。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。
"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例,
- "A"的前缀和后缀都为空集,共有元素的长度为0;
- "AB"的前缀为[A],后缀为[B],共有元素的长度为0;
- "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;
- "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素长度为 0;
- "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;
- "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;
- "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为 [BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。
什么是next数组
next数组就是
例如对字符串ABABCABA构造next数组,我们可以看出来一个一个字符串长度增加一位,判断改变后的字符串的最长前后缀匹配值需要根据未增加之前字符串的最长前后缀匹配值来确定。例如对于"ABABCA"的最长前后缀值是1,那么“ABABCA-B”增加的B我们只需要判断B和这个字符的最长前缀的下一位是否相同。
构造最长前缀数组
public int[] prefixArray(String str1) {
int[] prefixArray = new int[str1.length()];
char[] p = str1.toCharArray();
int j = 1;
int len = 0;
while (j < str1.length()){
if (p[len] == p[j]){
len++;
prefixArray[j] = len;
j++;
} else {
if (len > 0){
// 如果len大于0说明还可继续看前面一个元素是否和p[j]相同
len = prefixArray[len - 1];
} else {
// 如果len==0了说明前面没有元素和p[j]相同了直接
prefixArray[j] = len;
j++;
}
}
}
return prefixArray;
}