算法基础 - 朴素模式匹配算法、KMP模式匹配算法

朴素模式匹配算法

假设我们要从主字符串goodgoogle 中匹配子字符串google
朴素模式匹配算法就是通过从主字符的头部开始一次循环匹配的字符串的挨个字符如果不通过则主字符串头部位置遍历位置+1 在依次遍历子字符串的字符

匹配过程
主字符串从第一位开始取出g 子字符串取出第一位 g 匹配进入子循环
取出o 取出o 匹配
取出o 取出o 匹配
取出d 取出g 不匹配主字符串遍历位置+1

主字符串从第二位开始取出o 子字符串取出第一位 g 不匹配主字符串遍历位置+1

主字符串从第三位开始取出o 子字符串取出第一位 g 不匹配主字符串遍历位置+1

主字符串从第四位开始取出d 子字符串取出第一位 g 不匹配主字符串遍历位置+1

主字符串从第五位开始取出g 子字符串取出第一位 g 匹配进入子循环
取出o 取出o 匹配
取出o 取出o 匹配
取出g 取出g 匹配
取出l 取出l 匹配
取出e 取出e 匹配子循环结束匹配成功

假设主字符串长度为 n 子字符串长度为m n>= m
最好的情况需要匹配m次时间复杂度为 0(m)

例如 000000000001 匹配 00001 每次进入子循环之后都要遍历到最后一次子循环才得出不匹配
需要匹配次数 (n-m+1) * m
最坏的情况需要匹配m次时间复杂度为 0((n-m+1) * m)

KMP 模式匹配算法

KMP 算法的主要核心就是子字符串在子循环内得出不匹配时主字符串当前的判断位不需要回溯–也就是不可以变小，且子循环的判断位需要回溯回溯位与子字符串本身是否具有重复结构有关。以此来规避无效的判断
时间复杂度为 O(n+m)

如果主串 S = "abcdefgab" 我们要匹配的子串 T = "abcdex" 如果用前面的朴素算法，前5个字母完全相同
直到第6个字母 f 和 x 不同
步骤1
S: a b c d e f g a b
T: a b c d e x

接下来如果用朴素算法的话那么应该是如下比较
步骤2
S: a b c d e f g a b
T: # a b c d e x
b 和 a 不匹配

步骤3
S: a b c d e f g a b
T: # # a b c d e x
a和c 不匹配

步骤4
S: a b c d e f g a b
T: # # # # a b c d e x
d和a 不匹配

步骤5
S: a b c d e f g a b
T: # # # # a b c d e x
a和e 不匹配

步骤6
S: a b c d e f g a b
T: # # # # # a b c d e x

即主串S中的第2 ，3 ， 4， 5， 6 位都与子串T的首字符不相等

对于子串T来说如果首字符a与后面的bcdex中任意一个字符都不相等
那么对于上面的第一步来说前五位都相等那么可以得到子串首字符a 与主串的第2，3，4，5 位都不相等
即步骤2 ， 3 ，4 ，5 都是多余的可以直接进入步骤6

如果子串的首字符串与后面的字符有相等的情况
假设S = "abcababca" T= "abcabx"

朴素算法
步骤1
S: a b c a b a b c a
T: a b c a b x
a 与 x 不匹配

步骤2
S: a b c a b a b c a
T: # a b c a b x
b 与 a 不匹配

步骤3
S: a b c a b a b c a
T: # # a b c a b x
c 与 a 不匹配

步骤4
S: a b c a b a b c a
T: # # # a b c a b x
a 与 a 匹配

步骤5
S: a b c a b a b c a
T: # # # # a b c a b x
b 与 b 匹配

步骤6
S: a b c a b a b c a
T: # # # # a b c a b x
a 与 c 不匹配

因为步骤1 中已经得出前五位已经完全匹配并且子串首字符ab 存在相同的情况所以步骤2，3 是多余的

直接进入步骤4 因为步骤1中已经得出主串与子串前五位相同同时子串1 2 位与子串的4 5 位相同所以可得出
子串1 2 位与当前主串匹配位置开始的前两位也就是主串的4 5 位匹配所以步骤4 , 5 是多余的可以直接进入步骤6

通过上面的两个例子我们可以发现主串的比较位是不会回溯的，而子串的比较位与子串本身结构中是否有重复相关

子串不重复举例
S: a b c d e f g a
T: a b c d e x

子串第6位不匹配且本身没有重复那么下一次循环就变成了子串的第一位与主串的第二位比较
即子串的匹配位从6 变成了1

S: a b c d e f g a
T: # a b c d e x

子串重复举例
S: a b c a b a b c a
T: a b c a b x
a 与 x 不匹配

子串在第六位发生不匹配是前五位abcab 具有重复结构 ab 所以子串匹配位发生变化即子串的匹配位从6 变成了 3

S: a b c a b a b c a
T: # # # a b c a b x
a 与 c 不匹配

我们可以得出子串匹配位的值与主串无关只取决于当前字符串之前的串前后缀的相似度
也就是说我们在查找字符前，要先对子串做一个分析获取各个位置不匹配时下一步子串的匹配位

next数值推导

前缀：从头开始数不包含最后一位
后缀 : 不是倒着数是以和前缀相同的字符串为结尾的部分
例如字符串 a 没有前后缀
字符串 ab 没有前后缀
字符串 aba 没有前后缀
字符串 abab 前后缀 ab
字符串 ababa 前后缀可以是 a 可以是 aba 我们取长度最长的即 aba

第一位时 next值固定为0
其他情况取其公共最长前后缀的长度+1 没有则为1

因为一共子串有8位所以在子循环内一共需要获取 8次前后缀
这里我们定义一个next数组长度为8 里面的元素分别对应子串各个子循环内的前后缀长度
第1位不匹配时获取字符串为a 没有前字符串没有前后缀那么next[1] = 0
第2位不匹配时获取字符串为ab 有前字符串a 没有前后缀那么next[2] = 1
第3位不匹配时获取字符串为aba 有前字符串ab 没有前后缀那么next[3] = 1
第4位不匹配时获取字符串为abab 有前字符串aba 前后缀 a 那么next[4] = 2
第5位不匹配时获取字符串为ababa 有前字符串abab 前后缀 ab 那么next[5] = 3
第6位不匹配时获取字符串为ababaa 有前字符串ababa 前后缀 aba 那么next[6] = 4
第7位不匹配时获取字符串为ababaab 有前字符串ababaa 前后缀 a 那么next[7] = 2
第8位不匹配时获取字符串为ababaabc 有前字符串ababaab 前后缀 ab 那么next[8] = 3

next数组为[ 0, 1 , 1 ,2 , 3, 4 ,2, 3 ]

KMP 模式算法的改进

后来有人发现 KMP还是有缺陷的比如当子串 T = "aaaaax"
在5位发生不匹配此时 next[5] = 4 接着就是子串中的第四位a与主串当前位置字符比较

因为子串第五位等于子串第四位相同所以可以得出该步骤也不匹配此时 next[4] = 3
依然不匹配直到next[1] = 0

我们可以发现由于T串中的 2 3 4 5 位置都与首位a 相等中间的过程都是多余的
那么可以用首位的next[1] 的值去替代与它相等的字符后续的next[x]的值

kmp 代码来自书籍《大话数据结构》

#include "string.h"
#include "stdio.h"    
#include "stdlib.h"   

#include "math.h"  
#include "time.h"

#define OK 1
#define ERROR 0
#define TRUE 1
#define FALSE 0
#define MAXSIZE 100 /* 存储空间初始分配量 */

typedef int Status;     /* Status是函数的类型,其值是函数结果状态代码，如OK等 */
typedef int ElemType;   /* ElemType类型根据实际情况而定，这里假设为int */

typedef char String[MAXSIZE+1]; /*  0号单元存放串的长度 */

/* 生成一个其值等于chars的串T */
Status StrAssign(String T,char *chars)
{ 
    int i;
    if(strlen(chars)>MAXSIZE)
        return ERROR;
    else
    {
        T[0]=strlen(chars);
        for(i=1;i<=T[0];i++)
            T[i]=*(chars+i-1);
        return OK;
    }
}

Status ClearString(String S)
{ 
    S[0]=0;/*  令串长为零 */
    return OK;
}

/*  输出字符串T。 */
void StrPrint(String T)
{ 
    int i;
    for(i=1;i<=T[0];i++)
        printf("%c",T[i]);
    printf("\n");
}

/*  输出Next数组值。 */
void NextPrint(int next[],int length)
{ 
    int i;
    for(i=1;i<=length;i++)
        printf("%d",next[i]);
    printf("\n");
}

/* 返回串的元素个数 */
int StrLength(String S)
{ 
    return S[0];
}

/* 朴素的模式匹配法 */
int Index(String S, String T, int pos) 
{
    int i = pos;    /* i用于主串S中当前位置下标值，若pos不为1，则从pos位置开始匹配 */
    int j = 1;              /* j用于子串T中当前位置下标值 */
    while (i <= S[0] && j <= T[0]) /* 若i小于S的长度并且j小于T的长度时，循环继续 */
    {
        if (S[i] == T[j])   /* 两字母相等则继续 */
        {
            ++i;
            ++j; 
        } 
        else                /* 指针后退重新开始匹配 */
        {  
            i = i-j+2;      /* i退回到上次匹配首位的下一位 */
            j = 1;          /* j退回到子串T的首位 */
        }      
    }
    if (j > T[0]) 
        return i-T[0];
    else 
        return 0;
}

/* 通过计算返回子串T的next数组。 */
void get_next(String T, int *next) 
{
    int i,k;
    i=1;
    k=0;
    next[1]=0;
    while (i<T[0])  /* 此处T[0]表示串T的长度 */
    {
        if(k==0 || T[i]== T[k]) 
        {
            ++i;  
            ++k;  
            next[i] = k;
        } 
        else 
            k= next[k]; /* 若字符不相同，则k值回溯 */
    }
}

/* 返回子串T在主串S中第pos个字符之后的位置。若不存在，则函数返回值为0。 */
/*  T非空，1≤pos≤StrLength(S)。 */
int Index_KMP(String S, String T, int pos) 
{
    int i = pos;        /* i用于主串S中当前位置下标值，若pos不为1，则从pos位置开始匹配 */
    int j = 1;          /* j用于子串T中当前位置下标值 */
    int next[255];      /* 定义一next数组 */
    get_next(T, next);  /* 对串T作分析，得到next数组 */
    while (i <= S[0] && j <= T[0]) /* 若i小于S的长度并且j小于T的长度时，循环继续 */
    {
        if (j==0 || S[i] == T[j])   /* 两字母相等则继续，与朴素算法增加了j=0判断 */
        {
            ++i;
            ++j; 
        } 
        else            /* 指针后退重新开始匹配 */
            j = next[j];/* j退回合适的位置，i值不变 */
    }
    if (j > T[0]) 
        return i-T[0];
    else 
        return 0;
}

/* 求模式串T的next函数修正值并存入数组nextval */
void get_nextval(String T, int *nextval) 
{
    int i,k;
    i=1;
    k=0;
    nextval[1]=0;
    while (i<T[0])  /* 此处T[0]表示串T的长度 */
    {
        if(k==0 || T[i]== T[k])     /* T[i]表示后缀的单个字符，T[k]表示前缀的单个字符 */
        {
            ++i;  
            ++k;  
            if (T[i]!=T[k])      /* 若当前字符与前缀字符不同 */
                nextval[i] = k; /* 则当前的j为nextval在i位置的值 */
            else 
                nextval[i] = nextval[k];    /* 如果与前缀字符相同，则将前缀字符的 */
                                            /* nextval值赋值给nextval在i位置的值 */
        } 
        else 
            k= nextval[k];          /* 若字符不相同，则k值回溯 */
    }
}

int Index_KMP1(String S, String T, int pos) 
{
    int i = pos;        /* i用于主串S中当前位置下标值，若pos不为1，则从pos位置开始匹配 */
    int j = 1;          /* j用于子串T中当前位置下标值 */
    int next[255];      /* 定义一next数组 */
    get_nextval(T, next);   /* 对串T作分析，得到next数组 */
    while (i <= S[0] && j <= T[0]) /* 若i小于S的长度并且j小于T的长度时，循环继续 */
    {
        if (j==0 || S[i] == T[j])   /* 两字母相等则继续，与朴素算法增加了j=0判断 */
        {
            ++i;
            ++j; 
        } 
        else            /* 指针后退重新开始匹配 */
            j = next[j];/* j退回合适的位置，i值不变 */
    }
    if (j > T[0]) 
        return i-T[0];
    else 
        return 0;
}

int main()
{
    int i,*p;
    String s1,s2;
    
    StrAssign(s1,"abcdex");
    printf("子串为: ");
    StrPrint(s1);
    i=StrLength(s1);
    p=(int*)malloc((i+1)*sizeof(int));
    get_next(s1,p); 
    printf("Next为: ");
    NextPrint(p,StrLength(s1));
    printf("\n");

    StrAssign(s1,"abcabx");
    printf("子串为: ");
    StrPrint(s1);
    i=StrLength(s1);
    p=(int*)malloc((i+1)*sizeof(int));
    get_next(s1,p); 
    printf("Next为: ");
    NextPrint(p,StrLength(s1));
    printf("\n");

    StrAssign(s1,"ababaaaba");
    printf("子串为: ");
    StrPrint(s1);
    i=StrLength(s1);
    p=(int*)malloc((i+1)*sizeof(int));
    get_next(s1,p); 
    printf("Next为: ");
    NextPrint(p,StrLength(s1));
    printf("\n");

    StrAssign(s1,"aaaaaaaab");
    printf("子串为: ");
    StrPrint(s1);
    i=StrLength(s1);
    p=(int*)malloc((i+1)*sizeof(int));
    get_next(s1,p); 
    printf("Next为: ");
    NextPrint(p,StrLength(s1));
    printf("\n");

    StrAssign(s1,"ababaaaba");
    printf("   子串为: ");
    StrPrint(s1);
    i=StrLength(s1);
    p=(int*)malloc((i+1)*sizeof(int));
    get_next(s1,p); 
    printf("   Next为: ");
    NextPrint(p,StrLength(s1));
    get_nextval(s1,p); 
    printf("NextVal为: ");
    NextPrint(p,StrLength(s1));
    printf("\n");

    StrAssign(s1,"aaaaaaaab");
    printf("   子串为: ");
    StrPrint(s1);
    i=StrLength(s1);
    p=(int*)malloc((i+1)*sizeof(int));
    get_next(s1,p); 
    printf("   Next为: ");
    NextPrint(p,StrLength(s1));
    get_nextval(s1,p); 
    printf("NextVal为: ");
    NextPrint(p,StrLength(s1));

    printf("\n");

    StrAssign(s1,"00000000000000000000000000000000000000000000000001");
    printf("主串为: ");
    StrPrint(s1);
    StrAssign(s2,"0000000001");
    printf("子串为: ");
    StrPrint(s2);
    printf("\n");
    printf("主串和子串在第%d个字符处首次匹配（朴素模式匹配算法）\n",Index(s1,s2,1));
    printf("主串和子串在第%d个字符处首次匹配（KMP算法） \n",Index_KMP(s1,s2,1));
    printf("主串和子串在第%d个字符处首次匹配（KMP改良算法） \n",Index_KMP1(s1,s2,1));

    return 0;
}

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,313评论 6赞 496
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,369评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,916评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,333评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,425评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,481评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,491评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,268评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,719评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,004评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,179评论 1赞 342
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,832评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,510评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,153评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,402评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,045评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,071评论 2赞 352