字符串匹配算法

一、单模式串匹配

1.BF和RK算法

(1)BF(暴力匹配算法)
    public int BF(char[] target, char[] pattern) {
        if (target == null || pattern == null || target.length < pattern.length) return -1;
        int tLen = target.length;
        int pLen = pattern.length;
        for (int i = 0; i < tLen - pLen + 1; i++) {
            int j = 0;
            for (; j < pLen; j++) {
                if (target[i + j] != pattern[j]) {
                    break;
                }
            }
            if (j == pLen) {
                return i;
            }
        }
        return -1;
    }
(2)RK算法

选择的hash算法是26进制转换一个数,不会存在冲突,可能会存在溢出,代码并未处理。
代码中省略部分为优化前

    public int RK(char[] target, char[] pattern) {
        if (target == null || pattern == null || target.length < pattern.length) return -1;
        int tLen = target.length;
        int pLen = pattern.length;
        int[] hashCache = new int[pLen];
        int sum = 1;
        for (int i = 0; i < hashCache.length; i++) {
            hashCache[i] = sum;
            sum *= 26;
        }
        //模式串hash
        int pHash = 0;
        for (int i = 0; i < pLen; i++) {
            pHash += (pattern[i] - 'a') * hashCache[pLen - i - 1];
        }
        //主串中子串hash
        int[] targetChildHash = new int[tLen - pLen + 1];
        for (int i = 0; i < pLen; i++) {
            targetChildHash[0] += (target[i] - 'a') * hashCache[pLen - i - 1];
        }
        for (int i = 1; i < targetChildHash.length; i++) {
//            int hash = 0;
//            for (int j = 0; j < pLen; j++) {
//                hash += (target[i + j] - 'a') * hashCache[pLen - j - 1];
//            }
//            targetChildHash[i] = hash;
            targetChildHash[i] = (targetChildHash[i - 1] - hashCache[pLen - 1] * (target[i - 1] - 'a')) * 26 + (target[i + pLen - 1] - 'a') * hashCache[0];
        }
        //比较
        for (int i = 0; i < targetChildHash.length; i++) {
            //该hash算法不会存在冲突。如果会出现hash冲突,还需要继续判断对比子串和模式串是否相等
            if (targetChildHash[i] == pHash) {
                return i;
            }
        }
        return -1;
    }

关于优化部分讲解:
假设模式串长度m=3。主串中相邻两个子串 s[i-1]和 s[i](i 表示子串在主串中的起始位置,子串的长度都为 m),对应的哈希值计算公式是有交集的:



优化公式推导:


2.BM算法

public class BM {

    private static final int SIZE = 256;

    public static int bm(char[] target, char[] pattern) {
        if (target == null || pattern == null || target.length < pattern.length) return -1;
        int[] bc = new int[SIZE];
        generateBC(bc, pattern);
        int tLen = target.length;
        int pLen = pattern.length;
        int[] suffix = new int[pLen];
        boolean[] prefix = new boolean[pLen];
        generateGS(suffix, prefix, pattern, pLen);

        int i = 0;
        while (i <= tLen - pLen) {
            //1.坏字符规则
            int j = pLen - 1;
            for (; j >= 0; j--) {
                if (target[i + j] != pattern[j]) {//此时j是坏字符对应的模式串下标
                    break;
                }
            }
            if (j < 0) {//匹配成功
                return i;
            }
            int x = j - bc[(int) target[i + j]];
            int y = 0;
            //2.好后缀规则
            if (j < pLen - 1) {// 如果有好后缀(j+1~pLen-1为好后缀)
                y = getGS(j, suffix, prefix, pLen);
            }
            i = i + Math.max(x, y);//如果是i + (j - bc[(int) target[i + j]]),相当于模式串往后滑动j - bc[(int) target[i + j]]位
        }

        return -1;
    }

    private static int getGS(int j, int[] suffix, boolean[] prefix, int pLen) {
        int k = pLen - j - 1;//好后缀长度
        if (suffix[k] != -1) return j - suffix[k] + 1;//1.模式串存在好后缀
        for (int r = pLen - j - 2; r >= 1; r--) {
            if (prefix[r]) {//2.模式串是否存在前缀与好后缀子串匹配
                return r;
            }
        }
        return pLen;//3.不存在匹配,直接滑动pLen
    }

    private static void generateGS(int[] suffix, boolean[] prefix, char[] pattern, int pLen) {
        for (int i = 0; i < pLen; i++) {
            suffix[i] = -1;
        }
        for (int i = 0; i < pLen - 1; i++) {
            int j = i;
            int k = 0;
            while (j >= 0 && pattern[j] == pattern[pLen - k - 1]) {
                ++k;
                suffix[k] = j;
                --j;
            }
            if (j == -1) {
                prefix[k] = true;
            }
        }
    }

    /**
     * 构建坏字符哈希表
     * <p>
     * 假设字符串的字符集不是很大,每个字符长度是 1 字节,用大小为 256 的数组来记录每个字符在模式串中出现的位置。
     * 数组的下标对应字符的 ASCII 码值,数组中存储这个字符在模式串中出现的位置。
     *
     * @param bc
     * @param pattern
     */
    public static void generateBC(int[] bc, char[] pattern) {
        for (int i = 0; i < bc.length; i++) {
            bc[i] = -1;
        }
        for (int i = 0; i < pattern.length; i++) {//从前往后遍历,记录最后面出现的位置
            int index = (int) pattern[i];
            bc[index] = i;
        }
    }

    public static void main(String[] args) {
        String t = "abababc";
        String p = "bc";
        System.out.println(bm(t.toCharArray(), p.toCharArray()));
    }
}

3.KMP算法

public class KMP {

    public static int kmp(char[] target, char[] pattern) {
        int pLen = pattern.length;
        int tLen = target.length;
        int[] next = getNexts(pattern, pLen);
        int j = 0;
        for (int i = 0; i < tLen; i++) {
            while (j > 0 && target[i] != pattern[j]) {
                j = next[j - 1] + 1;//遇到坏字符时,查询next数组,改变模式串匹配起点
            }
            if (target[i] == pattern[j]) {//相等继续往后匹配
                ++j;
            }
            if (j == pLen) {//匹配成功,返回下标
                return i - pLen + 1;
            }
        }
        return -1;
    }

    private static int[] getNexts(char[] pattern, int pLen) {
        int[] next = new int[pLen];
        next[0] = -1;// 0位置没得回溯
        int k = -1;// 当前最长可匹配前缀子串的结尾字符下标
        for (int i = 1; i < pLen; i++) {// i表示已匹配前缀的位置(当前待填充的数组下标)
            while (k != -1 && pattern[k + 1] != pattern[i]) {
                k = next[k];//没办法找到更长的可匹配前后缀了,回溯找次长可匹配前后缀
            }
            if (pattern[k + 1] == pattern[i]) {
                ++k;
            }
            next[i] = k;
        }
        return next;
    }
}

二、多模式串匹配

1.Trie树

/**
 * 假设字符集只是'a'~'z'的情况
 */
public class Trie {

    private TreeNode root = new TreeNode('/');//根节点不存储数据

    public void insert(char[] text) {
        TreeNode p = root;

        for (int i = 0; i < text.length; i++) {
            int index = text[i] - 'a';
            if (p.children[index] == null) {
                p.children[index] = new TreeNode(text[i]);
            }
            p = p.children[index];
        }
        p.isEndingChar = true;
    }

    public boolean find(char[] text) {
        TreeNode p = root;
        for (int i = 0; i < text.length; i++) {
            int index = text[i] - 'a';
            if (p.children[index] == null) {
                return false;
            }
            p = p.children[index];
        }
        if (!p.isEndingChar) {// 不能完全匹配,只是匹配了前缀
            return false;
        }
        return true;
    }

    class TreeNode {

        public char data;
        public TreeNode[] children = new TreeNode[26];
        public boolean isEndingChar = false;

        public TreeNode(char data) {
            this.data = data;
        }
    }
}

2.AC自动机

public class AC {

    private AcNode root = new AcNode('/');

   /**
    * 将多个模式串构建成 AC 自动机
    */
    public AC(String[] pattern) {
        //1.通过多个模式串构建Trie树
        for (String p : pattern) {
            insert(p.toCharArray());
        }
        //2.在 Trie 树上构建失败指针
        buildFailurePointer();
    }

    /**
     * 构建失败指针
     */
    private void buildFailurePointer() {
        Queue<AcNode> queue = new LinkedList<>();
        queue.add(root);
        while (!queue.isEmpty()) {
            AcNode p = queue.poll();
            for (int i = 0; i < 26; i++) {
                AcNode pc = p.children[i];
                if (pc == null) continue;
                if (p == root) {
                    pc.fail = root;
                } else {
                    AcNode q = p.fail;
                    while (q != null) {
                        AcNode qc = q.children[i];
                        if (qc != null) {
                            pc.fail = qc;
                            break;
                        }
                        q = q.fail;
                    }
                    if (q == null) {
                        pc.fail = root;
                    }
                }
                queue.add(pc);
            }
        }
    }

    public void insert(char[] data) {
        AcNode p = root;
        for (char c : data) {
            int index = c - 'a';
            if (p.children[index] == null) {
                p.children[index] = new AcNode(c);
            }
            p = p.children[index];
        }
        p.isEndingChar = true;
        p.length = data.length;
    }

    /**
     * 多模式串匹配
     *
     * @param target
     */
    private void match(char[] target) {//target是主串
        AcNode p = root;
        for (int i = 0; i < target.length; i++) {
            int index = target[i] - 'a';
            if (p.children[index] == null && p != root) {
                p = p.fail;
            }
            p = p.children[index];
            if (p == null) {// 如果没有匹配的,从root开始重新匹配
                p = root;
            }
            AcNode tmpNode = p;
            while (tmpNode != root) {// 打印出可以匹配的模式串
                if (tmpNode.isEndingChar) {
                    int pos = i - tmpNode.length + 1;
                    System.out.println("匹配起始下标" + pos + "; 长度" + tmpNode.length);
                }
                tmpNode = tmpNode.fail;
            }
        }
    }

    class AcNode {
        public char data;
        public AcNode[] children = new AcNode[26];//字符集只包含a~z这26个字符
        public boolean isEndingChar = false;
        public AcNode fail = null;
        public int length = -1;//isEndingChar为true时候记录模式串长度

        public AcNode(char data) {
            this.data = data;
        }
    }


    public static void main(String[] args) {
        String[] pattern = {"abce", "bcd", "ce"};
        AC ac = new AC(pattern);
        String target = "cdbcdklce";
        ac.match(target.toCharArray());
    }
   
}

参考
[1]32 | 字符串匹配基础(上):如何借助哈希算法实现高效字符串匹配?-极客时间
[2]33 | 字符串匹配基础(中):如何实现文本编辑器中的查找功能?-极客时间
[3]34 | 字符串匹配基础(下):如何借助BM算法轻松理解KMP算法?-极客时间
[4]35 | Trie树:如何实现搜索引擎的搜索关键词提示功能?-极客时间
[5]36 | AC自动机:如何用多模式串匹配实现敏感词过滤功能?-极客时间

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352