AC自动机

Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一。一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。要搞懂AC自动机,先得有模式树(字典树)Trie和KMP模式匹配算法的基础知识。KMP算法是单模式串的字符匹配算法,AC自动机是多模式串的字符匹配算法。
要想学好AC自动机,首先你需要了解字典树KMP

构造字典树

比如说串she,say,her,shr 构造后的图就是:


之所以最后的节点都是灰色的,是标记这个是一个完整的单词的结尾。

void insert(char *s)
{
  int len=strlen(s);
   int root=0;
   for(int i=0;i<len;i++)
   {
       int x=s[i]-'a';
       if(!tree[root][x])
       {
           tree[root][x]=pos;
           pos++;
       }
       root=tree[root][x];
   }
   num[root]++;//记录单词的数量
}

构造fail指针

  1. fail的作用:
  • 在KMP算法中,当我们比较到一个字符发现失配的时候我们会通过next数组,找到下一个开始匹配的位置,然后进行字符串匹配,当然KMP算法试用与单模式匹配,所谓单模式匹配,就是给出一个模式串,给出一个文本串,然后看模式串在文本串中是否存在。
    在AC自动机中,我们也有类似next数组的东西就是fail指针,当发现失配的字符失配的时候,跳转到fail指针指向的位置,然后再次进行匹配操作,AC自动机之所以能实现多模式匹配,就归功于Fail指针的建立。
  1. fail指针的建立:
  • 当前节点ufail指针,其fail指针所指向的节点和u所代表的字符是相同的。因为u匹配成功后,我们需要去匹配u->child,发现失配,
    那么就从u->fail这个节点开始再次去进行匹配u->fail->child
  1. fail指针的求法:
  • Fail指针用BFS来求得,对于直接与根节点相连的节点来说,如果这些节点失配,他们的Fail指针直接指向root即可,其他节点其Fail指针求法如下:
    假设当前节点为father,其孩子节点记为child。求childFail指针时,首先我们要找到其fatherFail指针所指向的节点,假如是u(father的fail)的话,我们就要看u孩子中有没有和child节点所表示的字母相同的节点,如果有的话,这个节点(u->child)就是childfail指针,如果发现没有,则需要找father->fail->fail这个节点,然后重复上面过程,如果一直找都找不到,则childFail指针就要指向root。
    eg1

eg2

eg3

如图eg3所示
首先root最初会进队,然后root,出队,我们把root的孩子的失配指针都指向root。因此图中h,s的失配指针都指向root,如红色线条所示,同时h,s进队。

接下来该h出队,我们就找h的孩子的fail指针,首先我们发现h这个节点其fail指针指向root,而root又没有字符为e的孩子,则efail指针是空的,如果为空,则也要指向root,如图中蓝色线所示。并且e进队,此时s要出队,我们再找s的孩子a,hfail指针,我们发现sfail指针指向root,而root没有字符为a的孩子,故afail指针指向roota入队,然后找hfail指针,同样的先看sfail指针是root,发现root又字符为h的孩子,所以hfail指针就指向了第二层的h节点。e,a , hfail指针的指向如图蓝色线所示。

此时队列中有e,a,he先出队,找e的孩子r的失配指针fail,我们先看e的失配指针fail指向root,root没有字符为r的孩子,则r的失配指针fail指向了root,并且r进队,然后a出队,我们也是先看a的失配指针fail,发现也是指向root,root也没有字符为y的孩子,则yfail指针就会指向root.并且y进队。然后h出队,考虑h的孩子e,则我们看h的失配指针fail,指向第二层的h节点,看这个第二层的节点h发现有字符值为e的孩子节点,最后一行的节点e的失配指针就指向第三层的e。最后找r的指针,同样看第二层的h节点,其孩子节点不含有字符r,则会继续往前找h的失配指针找到了根root,根下面的孩子节点也不存在有字符r,则最后r就指向根节点,最后一行节点的fail指针如绿色虚线所示。

void getfail()
{
  queue<int>qu;
   for(int i=0;i<26;i++)
   {
       if(tree[0][i])//初始化根节点的26个孩子
       {
           fail[tree[0][i]]=0;//根节点的26个孩子的fail指向根节点0
           qu.push(tree[0][i]);//将根节点的孩子压入队列

       }
   }
   while(!qu.empty( ))
   {
       int root=qu.front( );//获得队列里面的一个节点序号root
       qu.pop( );
       for(int i=0;i<26;i++)//遍历这个root节点的26个孩子
       {
           if(tree[root][i])//说明存在root节点的第i个孩子
           {
               fail[tree[root][i]]=tree[fail[root]][i];//root节点的第i个孩子的fail指针指向root->fail的第i个孩子
               qu.push(tree[root][i]);//将root的第i个孩子压入队列
           }
           else//root的第i个孩子不存在
           {
               tree[root][i]=tree[fail[root]][i];//那root的第i个孩子节点序号就等于root->fail的第i个孩子的节点序号
           }  
       }
   }
}

假设当前节点为father,其孩子节点记为child。求childFail指针时,首先我们要找到其fatherFail指针所指向的节点,假如是u(father的fail)的话,我们就要看u孩子(孩子存在)中有没有和child节点所表示的字母相同的节点,如果有的话,这个节点(u->child)就是childfail指针,如果发现没有,则需要找father->fail->fail这个节点,然后重复上面过程,如果一直找都找不到,则childFail指针就要指向root。

然而这个代码只是将(root->fail->child)的节点序号赋给了childfail,假如root->fail不存在这个child节点不是root->fail->fail吗?
错了吗?是不是存在疑问呢?答案是没错的。这样是对的。

这个就要看else这个语句了。它的涵义是假如root的第i个孩子不存在,那就将root->fail的第i个孩子的节点序号赋给root的第i个孩子,于是root的26个孩子不都有节点序号了吗,而且还继承的是root->fail的i个孩子的序号而root->fail的第i个孩子又是继承root->fail->fail.....。于是在下层遍历root->fail的第i个孩子是有序号的。(root层不存在的孩子节点都继承了root->fail层的孩子节点)

   while(!qu.empty( ))
   {
       int root=qu.front( );
       qu.pop( );
       for(int i=0;i<26;i++)
       {
           if(tree[root][i])
           {
               fail[tree[root][i]]=tree[fail[root]][i];
               qu.push(tree[root][i]);
           }
           else
           {
               tree[root][i]=tree[fail[root]][i];
           }  
       }
   }

文本串的匹配

匹配过程分两种情况:
(1)当前字符匹配,表示从当前节点沿着树边有一条路径可以到达目标字符,如果当前匹配的字符是一个单词的结尾,我们可以沿着当前字符的fail指针,一直遍历到根,如果这些节点末尾有标记(此处标记代表,节点是一个单词末尾的标记),这些节点全都是可以匹配上的节点。我们统计完毕后,并将那些节点标记。此时只需沿该路径走向下一个节点继续匹配即可,目标字符串指针移向下个字符继续匹配;
(2)当前字符不匹配,则去当前节点失败指针所指向的字符继续匹配,匹配过程随着指针指向root结束。重复这2个过程中的任意一个,直到模式串走到结尾为止。



对照上图,看一下模式匹配这个详细的流程,其中模式串为yasherhs。对于i=0,1Trie中没有对应的路径,故不做任何操作;i=2,3,4时,指针j走到左下节点e。因为节点enum信息为1,所以ans+1,并且将节点enum值设置为-1,表示改单词已经出现过了,防止重复计数,最后j指向e节点的失配指针fail所指向的节点继续查找,以此类推,最后fail指向root,退出for循环,这个过程中num增加了2。表示找到了2个单词she和he。当i=5时,root代表的节点是er节点的num值为1,从而ans+1,循环直到fail指向root为止。最后i=6,7时,找不到任何匹配,匹配过程结束。

int query(char *s)
{
  int len=strlen(s);
   int ans=0;
   int root=0;
   for(int i=0;i<len;i++)
   {
       int x=s[i]-'a';
       root=tree[root][x];//节点序号
       for(int j=root;j&&num[j]!=-1;j=fail[j])//j代表的是节点序号
       {
           ans+=num[j];
           num[j]=-1;
       }
   }
   return ans;
}
Keywords Search
#include<bits/stdc++.h>
using namespace std;
const int M=1e6+100;
int tree[M][26];
int num[M];
int fail[M];
int pos;
void init( )
{
    pos=1;
    memset(num,0,sizeof(num));
    memset(fail,0,sizeof(fail));
    memset(tree,0,sizeof(tree));
}
void insert(char *s)
{
    int len=strlen(s);
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        if(!tree[root][x])
        {
            tree[root][x]=pos;
            pos++;
        }
        root=tree[root][x];
    }
    num[root]++;
}
void getfail()
{
    queue<int>qu;
    for(int i=0;i<26;i++)
    {
        if(tree[0][i])
        {
            fail[tree[0][i]]=0;
            qu.push(tree[0][i]);

        }
    }
    while(!qu.empty( ))
    {
        int root=qu.front( );
        qu.pop( );
        for(int i=0;i<26;i++)
        {
            if(tree[root][i])
            {
                fail[tree[root][i]]=tree[fail[root]][i];
                qu.push(tree[root][i]);
            }
            else
            {
                tree[root][i]=tree[fail[root]][i];
            }  
        }
    }
}
int query(char *s)
{
    int len=strlen(s);
    int ans=0;
    int root=0;
    for(int i=0;i<len;i++)
    {
        int x=s[i]-'a';
        root=tree[root][x];
        for(int j=root;j&&num[j]!=-1;j=fail[j])
        {
            ans+=num[j];
            num[j]=-1;
        }
    }
    return ans;
}
int main( )
{
    int t,n;
    char s[1000010];
    scanf("%d",&t);
    while(t--)
    {
        init( );
        scanf("%d",&n);
        getchar( );
        while(n--)
        {
            scanf("%s",s);
            insert(s);
        }
        fail[0]=0;
        getfail( );
        scanf("%s",s);
        printf("%d\n",query(s));
    }
    return 0;
}
链接三连:

链接 链接 链接

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容

  • 参考https://www.cnblogs.com/cmmdc/p/7337611.html 首先简要介绍一下AC...
    idella阅读 547评论 0 0
  • 参考博文:AC自动机算法详解 (转载) (原文作者:DarkRaven,原文的链接失效了)图片来源:AC自动机算...
    jenye_阅读 4,615评论 2 4
  • AC自动机 AC自动机:Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名...
    尼桑麻阅读 1,439评论 0 0
  • 参考资料:AC自动机GIF动图(来自油管) 以下文章节选自:王争老师 AC自动机:如何用多模式串匹配实现敏感词过滤...
    RainingMan阅读 2,971评论 0 0
  • AC自动机(Aho-Corasick\ automaton),可以解决多模板串匹配的问题。可以理解为可以一次性匹配...
    An_Account阅读 467评论 0 1