BM(Boyer-Moore)目前被认为最高效的字符串搜索算法

坏字符算法

BM使用的式从右往左的匹配模式,在进行匹配时,先从最后一个字符进行匹配,如:

坏字符算法

在上面的例子中,在第一次匹配中,从右开始第一个df不匹配,一般情况下是往右移动一位,但在BM中,进行启发式规则的匹配,f不属于pattern所以整个启发式往右移动4个位置,再进行预处理,发现db不匹配,再次进行移动,使得最右边中的btxt中 的b对其.这样能够更快速的进行匹配.在txt中红色的字符就是所谓的坏字符:当出现一个坏字符时,将模式中最靠右的对应字符与坏字符相对,然后继续匹配(这个最靠右的字符应该是位于坏字符前面的pattern,否则的话pattern会变成向左移动),当pattern中不存在坏字符时,直接移动pattren长度的距离

 public int [] BMbc(String pattern){
        int length = pattern.length();
        int [] arr = new int [256];
      byte [] bytes = pattern.getBytes();
        for(int i=0;i<256;i++){
            arr[i] = bytes.length;
        }
        
        for (int i=0;i<bytes.length;i++){
            arr[bytes[i]+128] = bytes.length-1-i;
        }
        return arr;
    }

好后缀算法

在匹配过程中,如果匹配了一个好后缀(也就是在pattern的后面有几位数是匹配到的),而接下来的一个字符不匹配,在这个pattern的前面拥有子串和好后缀完全匹配的,则将最靠右的字串移动到好后缀的位置进行匹配.如果找不到与好后缀匹配的字串,那么直接移动整个模式串


子串匹配好后缀

子串无法匹配好后缀

在好后缀算法中,先对模式进行预处理获取辅助数组,suff[i]就是求pattern中以i位置字符为后缀和以最后一个字符为后缀的公共后缀串的长度

public void getSuff(char [] chars,int [] suff){
       int length = chars.length;
           //从右边第二个字符开始进行匹配
       for(int i=length-2;i>=0;i--){
           int j = i;
           while (j>=0&&chars[j] == chars[length-1-i+j])
           //chars[i]与char[length-1]开始进行匹配,相同则移动到下一位
               j--;
           suff[j] = i-j;//i表示的是子字符的起点,j表示的相同字符结尾,i-j表示的就是匹配的长度
       }
   }

这里bmGs[]的下标是数字而不是字符了,表示字符在pattern中位置。
如前所述,bmGs数组的计算分三种情况,与前一一对应。假设图中好后缀长度用数组suff[]表示。
Case1:遍历到j字符时无法匹配的一般情况在模式的后面有着能够匹配好后缀的子串,如下图,j是好后缀之前的那个位置。从图片中可以看到,对于好后缀的长度由suff[i]获得,而此时可以计算出bmGs[j]=m-1-i,而j的位置j=m-1-suff[i]从而任意的ibmGs[m-1-suff[i]] = m-1-i;

引用百度图片case1

Case2:在匹配到好后缀的子串的同时,子串是模式中最后的字符串:当子串刚好是字符串中最后的字符时,也就是当suff[i]=i+1这时候位于0与m-1-suff[i]之间的字符无法匹配时,他们的移动距离都是m-1-i如下图所示:
引用百度图片case2

Case3:好后缀在模式后面没有匹配,直接将整个模式移动m距离,bmGs[i] = strlen(pattern)= m
引用百度图片case3


    //好后缀算法中:获取以数组suff,其中suff[i]表示以chars[i]为结尾的字符串与整个字符串之间相同的字符长度.
    public void getSuff(byte [] bytes,int [] suff){
        int length = bytes.length;
        suff[length-1] = length;
        for(int i=length-2;i>=0;i--){
            int j = i;
            while (j>=0&&bytes[j] == bytes[length-1-i+j])//chars[i]与char[length-1]开始进行匹配,相同则移动到下一位
                j--;
            suff[i] = i-j;//i表示的是子字符的起点,j表示的相同字符结尾,i-j表示的就是匹配的长度
        }
    }

    //好后缀算法,获取移动数组
    public int [] BMgs(String pattern){
        //获取模式的byte数组
        byte [] bytes = pattern.getBytes();
        //获取模式长度
        int length = bytes.length;
        //构建移动数组
        int [] arr = new int [length];
        //构建辅助数组
        int [] suff = new int [length];
        //获取辅助数组
        getSuff(bytes,suff);
        //遍历整个数组
        //对不在好后缀的长度都设置为length 包括case3
        for(int i=0;i<length;i++){
            arr[i] = length;
        }
        //对case2的情况进行处理
        int j=0;
        for(int i=length-1;i>=0;i--){
            if (i+1==suff[i]){
                for(;j<=length-1-suff[i];j++){
                    if(length==arr[j])
                    arr[j] = length-1-i;
                }
            }
        }
        //对case1进行处理
        for(int i=0;i<length-1;i++){
            arr[length-1-suff[i]] = length-1-i;
        }
        return arr;
    }

BM同时通过这两种方法对字符串进行搜索

public int BM(String txt,String pattern){

        byte [] bytes = txt.getBytes();

        byte [] patternbyte = pattern.getBytes();
        if(bytes.length<patternbyte.length)
            return -1;
        int [] arrBMbc = BMbc(pattern);

        int [] arrBMgs = BMgs(pattern);
        int i=0;
        while (i<bytes.length-patternbyte.length){
            int j=patternbyte.length-1;
            for(;j>=0;j--){
                if(bytes[i+j]!=patternbyte[j])
                    break;
            }
            if(j<0)return i;
            i+=Math.max(arrBMbc[bytes[i+j]+128]-patternbyte.length+1+i,arrBMgs[j]);
        }

        return -1;
    }
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335