字符串匹配

朴素字符串匹配算法

这里假设text是一个文本,长度为n。pattern是需要匹配的子串,长度为m。

朴素字符串匹配算法,通过简单的循环,从头对比text中,每个长度为m的子串是否与pattern相等:

NaiveStringMatch.png

朴素字符串匹配算法实现十分简单,因为没有做任何预处理,时间复杂度为0((n-m+1)*m):

/*
* @brief 朴素字符串匹配
* @return 返回pattern在text匹配成功的索引值,若未匹配成功,返回空数组
*/
vector<int> NaiveStringMatch(string text,string pattern) {
    vector<int> matched_index;
    int t_len = text.size();
    int p_len = pattern.size();

    if (t_len < p_len) {
        return matched_index;
    }
    for (int i = 0; i < t_len - p_len + 1; i++) {
        for (int j = 0; j < p_len; j++) {
            if (text[i + j] != pattern[j]) {
                break;
            }
            if (j == p_len - 1) {
                matched_index.push_back(i);
            }
        }
    }
    return matched_index;
}

Rabin-Karp 算法

为了方便理解, 在这里先假设,T为长度n的文本,P为长度m的模式,T、P只包含0-9的数字字符。因此,可以简单的将P字面的值,作为P的值。

例如: P= "123" , 这时候P的值就是123。

设p为P[1 : m]的值,Ts 为T[s : s + m - 1]的值,当p == Ts 时,可知字符串匹配成功。

相比朴素字符串匹配算法,如果,能够通过Ts的值,直接计算出Ts+1的值,就可以跳过子串对比的过程。

假设 T = ”123456“ , m = 3。 则有T0 = 123,T1 = 234。 T1相对于T0去除了一个高位1,增加了一个低位4

由上可推出 Ts+1 =10 * (Ts - T[s] * 10^(m-1)) + T[s+1]

现在的问题是,当m太大,上面对于Ts+1的计算,就不可能在常数时间内完成。

这里就需要,找到一个合适的q,运用模运算,得到:

Ts+1 = (10 * (Ts - T[s] * h) + T[s+1] ) mod q
h = 10^(m - 1) mod q

运用模运算,可能会出现,T[s : s + m - 1] != P[1 : m],但是Ts == p 的情况。因此当Ts == p时,需要再次判断T[s : s + m - 1] 和 P[1 : m] 是否相等。

如下图,P = ”31415“,q为质数13,通过计算p = 7:

Rabin-Karp.png

为推广到任意字符匹配,我们可以将底10换成其他数值

Ts+1 = (d * (Ts - T[s] * h) + T[s+1] ) mod q
h = d^(m - 1) mod q

例如:ASCII字符最大值为128,我们使 d = 128,可以进行ASCII字符的匹配。

c++代码实现如下:

/*
* @brief Rabin-Karp 匹配算法
* @return 返回pattern在text匹配成功的索引值,若未匹配成功,返回空数组
*/
vector<int> RabinKarpMatch(string text, string pattern) {
    
    vector<int> matched_index;
    int t_len = text.size();
    int p_len = pattern.size();
    
    /* 以128为底,匹配所有ASCII码字符 质数选择: 113 */
    int d = 128;
    int q = 113;
    int h = pow(d, p_len - 1);
    h = fmod(h,113);

    int t_hash = 0;
    int p_hash = 0;
    for (int i = 0; i < p_len; i++) {
        p_hash = fmod((d * p_hash + pattern[i]) , q);
        t_hash = fmod((d * t_hash + pattern[i]), q);
    }
    cout << "p_hash: "<< p_hash << endl;
    for (int i = 0; i < t_len - p_len + 1; i++) {
        cout <<i<<".t_hash:" << t_hash << endl;
        if (t_hash == p_hash) {
            for (int j = 0; j < p_len; j++) {
                if (text[i + j] != pattern[j]) {
                    break;
                }
                if (j == p_len - 1) {
                    matched_index.push_back(i);
                }
            }
        }

        if (i < t_len - p_len) {
            t_hash = fmod((d * (t_hash - text[i] * h) + text[i + p_len]) , q);
            while (t_hash < 0) {
                t_hash += q;
            }
        }
    }
    return matched_index;
}

KMP算法

这里引入一些概念:

  1. 字符串的前缀:符号串左部的任意子串(或者说是字符串的任意首部)

  2. 字符串的后缀:符号串右部的任意子串(或者说是字符串的任意尾部)

kmp.png

c++代码实现:


static vector<int> KmpPrefixComputing(string pattern) {
    vector<int> prefix(pattern.size(), 0);

    /* pattern中已匹配字符数 */
    int k = 0; 
    prefix[0] = k;

    /* 本质是由pattern[0:] 取匹配 pattern[1:] 求pattern[0:i]后缀的关于pattern的最长前缀 */
    for (int i = 1; i < pattern.size(); i++) {
        while (k > 0 && pattern[k] != pattern[i]) {
            k = prefix[k - 1];
        }
        if (pattern[k] == pattern[i]) {
            k++;
        }
        prefix[i] = k;
    }
    return prefix;
}

/*
* @brief KMP 匹配算法
* @return 返回pattern在text匹配成功的索引值,若未匹配成功,返回空数组
*/
vector<int> KmpMatch(string text, string pattern) {
    vector<int> matched_index;
    vector<int> prefix = KmpPrefixComputing(pattern);

    int k = 0;
    for (int i = 0; i < text.size(); i++) {
        while (k > 0 && pattern[k] != text[i]) {
            k = prefix[k - 1];
        }
        if (pattern[k] == text[i]) {
            k++;
        }
        if (k == pattern.size()) {
            matched_index.push_back(i - pattern.size() + 1);
            k = prefix[k];
        }
    }
    return matched_index;
}
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容