字符串匹配算法之BF和RK算法（C语言）

字符串匹配问题

给你两个仅包含小写字母的字符串：主串 S = "abcacabdc"、模式串 T = "abd"，请查找出模式串在主串第一次出现的位置。在这题中答案是 6。

备注：主串和模式串均为小写字母且都是合法输入，代码中不用考虑字符串的异常情况。

BF算法

BF算法，即暴力(Brute Force)算法，是普通的模式匹配算法，BF算法的思想就是将目标串 S 的第一个字符与模式串 T 的第一个字符进行匹配，若相等，则继续比较 S 的第二个字符和 T 的第二个字符；若不相等，则比较 S 的第二个字符和 T 的第一个字符，依次比较下去，直到得出最后的匹配结果。BF算法是一种蛮力算法，时间复杂度为 O(m*n)。

思路：

分别利用计数指针 i 和 j 指示主串 S 和模式 T 中当前待比较的字符位置，i 和 j 的初值为1;
如果 2 个串都没有比较到串尾，即 i 和 j 均小于等于 S 和 T 的长度时, 则循环执行以下的操作:

S[i] 和 T[j] 比较，若相等：则 i 和 j 分别指示主串和模式串中下一个位置，继续比较后续的字符;
若不相等，指针后退重新开始匹配。从主串的下一个字符串(i = i - j + 2)起再重新和模式串第一个字符(j = 1)比较;

如果 j > T.length，说明模式T中的每个字符串依次和主串S找中的一个连续字符序匹配成功，返回和模式T中第一个字符的字符在主串S中的序号 (i-T.length); 否则匹配失败,返回-1;

备注：字符串的下标0中存储的是字符的长度。

代码如下：

int getIndex_BF(String strOne, String strTwo){
    
    int i = 1;
    int j = 1;
    
    //判断两个字符串是否比到尾了
    while (i <= strOne[0] && j <= strTwo[0] ) {
        //比较两个字符是否相等
        if (strOne[i] == strTwo[j]) {
            //相等则继续比较下一个
            I++;
            j++;
        }
        else {
            //不相等则从主串此次比较的下个位置继续比较
            i -= (j - 2);
            //模式串要从头开始
            j = 1;
        }
    }
    //如果j大于模式串的长度，说明找到了模式串，位置在i-模式串长度的地方
    if (j > strTwo[0]) {
        return i - strTwo[0];
    }
    return -1;
}

RK算法

RK 算法的全称叫 Rabin-Karp 算法。它是由两位发明者 Rabin 和 Karp 的名字来命名的算法，这个算法理解不算过于复杂，但是有一些编码技巧在里面，可以让我们学习。

在刚刚学习的BF算法中，如果模式串长度为 m，主串长度为 n，那在主串中就会有 n-m+1 个长度为 m 的子串。我们只需要暴力地对比这 n-m+1 个子串与模式串，就可以找出主串与模式串匹配的子串。但是每次检查主串的子串与模式串是否匹配, 需要依次比对每个字符, 所以BF算法的时间复杂度比较高，是O(n*m)。我们对BF的字符串匹配算法稍加改造，引入哈希算法，时间复杂度立刻就会降低。

RK 算法的思路是这样的：我们通过哈希算法对主串中的 n-m+1 个子串分别求哈希值，然后逐个与模式串的哈希值比较大小。如果某个子串的哈希值与模式串相等，那就说明对应的子串和模式匹配了。

RK算法.png

在讲思路前我先讲下这里我使用的Hash算法：

计算字符串的（每个字符的Ascii码值 - 'a'的Ascii码值 + 1），我称之为Value;
将每个Value相乘，得到字符串的Hash值。

这个Hash算法不太好，会出现哈希冲突。大家自己可以设计不会出现冲突又好计算的Hash算法，在这里提一下，使用26进制Hash算法模式串一长就会造成Hash值超过long long类型的最大值，所以它也可能出现哈希冲突。

时间复杂度：

使用不会冲突的算法：O(n)；
使用会冲突的的Hash算法：O(m+n)，但是平均复杂度比BF算法好。

RK算法思路：

记录两个字符串的长度；
计算模式串的Hash值；
依次计算出主串每个子串的Hash值，边计算边比较，不要全部计算好再比较；
在计算新子串的Hash值时可以根据旧子串的Hash计算得出，减少重复计算；
Hash值相同需对比一下子串和模式串是否匹配（防止出现哈希冲突），匹配则返回index；
如果没有找到匹配的子串，则返回-1。

代码如下：

//RK算法
int getIndex_RK(String strOne, String strTwo){
    
    //1、记录两个字符串的长度
    int lengthOne = strOne[0];
    int lengthTwo = strTwo[0];
    
    //2、计算模式串的Hash值
    long long twoHashValue = 1;
    for (int i = 1; i <= lengthTwo; i++) {
        int value = strTwo[i] - 'a' + 1;
        twoHashValue *= value;
    }
    
    //3、依次计算出主串每个子串的Hash值，边计算边比较
    long long oneHashValue = 1;
    for (int i = 1; i <= lengthOne - lengthTwo + 1; i++) {
        if (i == 1) {
            for (int j = 1; j <= lengthTwo; j++) {
                int value = strOne[j] - 'a' + 1;
                oneHashValue *= value;
            }
        }
        else {
            //4、计算新子串的Hash值可以根据旧子串的Hash计算得出，减少重复计算
            int valueOld = (strOne[i - 1] - 'a' + 1);
            int valueNew = (strOne[i + lengthTwo - 1] - 'a' + 1);
            oneHashValue = oneHashValue / valueOld * valueNew;
        }
        //5、Hash值相同需对比一下子串和模式串是否匹配（防止出现哈希冲突），匹配则返回index
        if (oneHashValue == twoHashValue) {
            int isOK = isMatch(strOne, i, strTwo);
            if (isOK == 1) {
                return I;
            }
        }
    }
    //6、如果没有找到匹配的子串，则返回-1
    return -1;
}

//判断Hash值相等的字符串是否相等
int isMatch(String strOne, int index, String strTwo){
    
    for (int i = 1; i <= strTwo[0]; i++) {
        if (strOne[index + i - 1] != strTwo[i]) {
            return 0;
        }
    }
    return 1;
}

辅助代码

#include "string.h"

#define OK    1
#define ERROR 0
typedef int Status;

#define MAX_SIZE 100
//定义串，0号单元存放串的长度
typedef char String[MAX_SIZE +1];

//生成一个其值等于chars的串
Status assignStr(String str, char *chars){
    
    int length = (int)strlen(chars);
    if (length > MAX_SIZE) {
        return ERROR;
    }
    str[0] = length;
    for (int i = 1; i <= length; i++) {
        str[i] = chars[i - 1];
    }
    return OK;
}

//打印字符串
void printfStr(String str){
    
    for (int i = 1; i <= str[0]; i++) {
        printf("%c",str[I]);
    }
    printf("\n");
}

int main(int argc, const char * argv[]) {
    
    char *charsOne = "ssadfaadfsa";
    String strOne;
    assignStr(strOne, charsOne);
    printf("主串为：");
    printfStr(strOne);
    
    char *charsTwo = "fsa";
    String strTwo;
    assignStr(strTwo, charsTwo);
    printf("模式串为：");
    printfStr(strTwo);
    
    printf("第一次出现模式串的索引位置为：\n");
    int indexBf = getIndex_BF(strOne, strTwo);
    printf("BF算法：%d\n",indexBf);
           
    int indexRk = getIndex_RK(strOne, strTwo);
    printf("RK算法：%d\n",indexRk);
    return 0;
}

执行结果

用例1.png

用例2.png

字符串匹配算法之BF和RK算法（C语言）