AC自动机及多模式匹配

  • 在接触AC自动机之前,只仅仅掌握单模式匹配的算法:比如KMP、BMH等算法;经过优化后,KMP和BMH都具有线性时间复杂度,而实际情况下,一般的匹配问题BMH具有亚线性的表现。而昨天接触的AC自动机则是一种结合了字典树和KMP的一种算法,使得在多模式匹配下,时间复杂度达到O(Σmi + n),其中n为原串长度,mi为第i个模式串的长度;
  • 匹配过程中类似于KMP,原串不走回头路,利用之前已经匹配过的结果来构造特殊的字典树从而形成AC自动机;
  • 创建自动机的过程中,最为重要的是fail指针的构造;我是从这篇文章中学会的,AC自动机算法详解;fail指针的作用类似于KMP中的next数组;
  • 我的这个模板中并没有考虑对自动机的优化, 比如ptr->fail->next[i]ptr->next[i]若同时不存在, 则ptr->fail其实是可以直接指向ptr->fail->fail的原因很简单, 因为ptr->next[i]发生失配时, ptr = ptr->fail, 此时肯定仍然失配, 需要继续ptr->fail,当然优化的代价是增加对存储空间的占用, fail需要变为vector<trieTreeNode*> fail,每个字母都应对应一个fail指针。
////////////////////////////////////////////////////////////////////////////////
/*
1 const vector<string> &patterns: several pattern strings;
2 const string &s: original strings;
3 vector<string> &answer: the patterns which are matched in the original strings;
4 return the number of patterns which are matched.
*/
////////////////////////////////////////////////////////////////////////////////
#include <iostream>
#include <vector>
#include <queue>
#include <string>
#include <unordered_set>
#define ALPH_NUM 26
using namespace std;

struct trieTreeNode {
    vector<trieTreeNode*> next;
    bool mark;
    trieTreeNode *fail;
    trieTreeNode(): next(26, nullptr), mark(false), fail(nullptr) {}
};

trieTreeNode *createAcAutomation(const vector<string> &patterns);
int findPatterns(vector<string> &answer, trieTreeNode *root, const string &s);
void makeFoundPatterns(vector<string> &answer, unordered_set<trieTreeNode*> &save, trieTreeNode *root, string pattern);
inline char turn_char(int index);
int multiPatternsMatchingByAcAutomation(const vector<string> &patterns, const string &s, vector<string> &answer);

trieTreeNode *createAcAutomation(const vector<string> &patterns) {
    trieTreeNode *root = new trieTreeNode(), *ptr, *cur;
    for (int i = 0; i != patterns.size(); ++i) {
        cur = root;
        for (int k = 0; k != patterns[i].size(); ++k) {
            int index = patterns[i][k] - 'a';
            if (!cur->next[index])
                cur->next[index] = new trieTreeNode();
            cur = cur->next[index];
        }
        cur->mark = true;
    }
    queue<trieTreeNode*> makeFail;
    makeFail.push(root);
    while (!makeFail.empty()) {
        cur = makeFail.front(); makeFail.pop();
        for (int i = 0; i != ALPH_NUM; ++i) {
            if (cur->next[i]) {
                for (ptr = cur->fail; ptr && !ptr->next[i]; ptr = ptr->fail);
                cur->next[i]->fail = ptr ? ptr->next[i] : root;
                makeFail.push(cur->next[i]);
            }
        }
    }
    return root;
}

int findPatterns(vector<string> &answer, trieTreeNode *root, const string &s) {
    int count = 0;
    string pattern;
    unordered_set<trieTreeNode*> save;
    trieTreeNode *cur = root;
    for (int i = 0; i != s.size(); ) {
        int index = s[i] - 'a';
        if (!cur) {
            cur = root; ++i;
        }
        else if (cur->next[index]) {
            cur = cur->next[index];
            if (cur->mark) {
                ++count;
                save.insert(cur);
            }
            ++i;
        }
        else {
            cur = cur->fail;
            if (cur && cur->mark) {
                ++count;
                save.insert(cur);
            }
        }
    }
    makeFoundPatterns(answer, save, root, pattern);
    return count;
}

void makeFoundPatterns(vector<string> &answer, unordered_set<trieTreeNode*> &save,
    trieTreeNode *root, string pattern) {
    unordered_set<trieTreeNode*>::iterator it = save.find(root);
    if (it != save.end())
        answer.push_back(pattern);
    for (int i = 0; i != ALPH_NUM; ++i) {
        if (root->next[i]) {
            string t(pattern);
            t.push_back(turn_char(i));
            makeFoundPatterns(answer, save, root->next[i], t);
        }
    }
}

inline char turn_char(int index) {
    return 'a' + index;
}

int multiPatternsMatchingByAcAutomation(const vector<string> &patterns, const string &s, vector<string> &answer) {
    trieTreeNode *root = createAcAutomation(patterns);
    return findPatterns(answer, root, s);
}

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容