字符串匹配算法

KMP算法

算法介绍

KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配信息。

KMP算法中,对于每一个模式串我们会事先计算出模式串的内部匹配信息,在匹配失败时最大的移动模式串,以减少匹配次数。

比如,在简单的一次匹配失败后,我们会想将模式串尽量的右移和主串进行匹配。右移的距离在KMP算法中是如此计算的:在已经匹配的模式串子串中,找出最长的相同的前缀和后缀,然后移动使它们重叠。

算法实现

public static int KMPSearch(String target, String pattern) {
    int[] nextVal = getNextVal(pattern);
    int i = 0, j = 0, N = target.length(), M = pattern.length();
    while (i < N && j < M) {
        if (j == -1 || target.charAt(i) == pattern.charAt(j)) { i++; j++; }
        else j = nextVal[j];
    }
    if (j >= M) return i - M;
    return -1;
}
private static int[] getNextVal(String pattern) {
    int[] nextVal = new int[pattern.length()];
    nextVal[0] = -1;
    int i = 0, j = -1;
    int M = pattern.length() - 1;
    while (i < M) {
        if (j == -1 || pattern.charAt(i) == pattern.charAt(j)) {
            i++; j++;
            if (pattern.charAt(i) == pattern.charAt(j)) nextVal[i] = nextVal[j];
            else nextVal[i] = j;
        } else j = nextVal[j];
    }
    return nextVal;
}

BM算法

算法介绍

Boyer-Moore充分使用预处理P的信息来尽可能跳过更多的字符。通常,我们比较一个字符串都是从首字母开始,逐个比较下去。一旦发现有不同的字符,就需要从头开始进行下一次比较。这样,就需要将字串中的所有字符一一比较。

Boyer-Moore算法的关键在于,当P的最后一个字符被比较完成后,我们可以决定跳过一个或更多个字符。如果最后一个字符不匹配,那么就没必要继续比较前一个字符。如果最后一个字符未在P中出现,那么我们可以直接跳过T的n个字符,比较接下来的n个字符,n为P的长度(见定义)。

如果最后一个字符出现在P中,那么跳过的字符数需要进行计算(也就是将P整体往后移),然后继续前面的步骤来比较。通过这种字符的移动方式来代替逐个比较是这个算法如此高效的关键所在。

算法实现

public static int BMSearch(String target, String pattern) {
    int[] right = getRight(pattern);
    int N = target.length(), M = pattern.length(), skip = 0;
    for (int i = 0; i <= N - M; i += skip) {
        skip = 0;
        for (int j = M - 1; j >= 0; j--)
            if (pattern.charAt(j) != target.charAt(i + j)) {
                skip = j - right[target.charAt(i + j)];
                break;
            }
        if (skip == 0) return i;
    }
    return -1;
}
private static int[] getRight(String pattern) {
    int[] right = new int[256];
    int M = pattern.length();
    for (int i = 0; i < 256; i++) right[i] = -1;
    for (int i = 0; i < M; i++) right[pattern.charAt(i)] = i;
    return right;
}

RK算法

算法介绍

如果两个字符串hash后的值不相同,则它们肯定不相同;如果它们hash后的值相同,它们不一定相同。

RK算法的基本思想就是:将模式串P的hash值跟主串S中的每一个长度为|P|的子串的hash值比较。如果不同,则它们肯定不相等;如果相同,则再诸位比较之。

~~算法实现 (有问题,按书上敲的,但是结果不对) ~~

public static int RKSearch(String target, String pattern) {
    int N = target.length(), M = pattern.length();
    int R = 256, Q = 997, RM = 1;
    for (int i = 1; i < M; i++)
        RM = (R * RM) % Q;
    long patternHash = hash(pattern, M, R, Q);
    long targetHash  = hash(target,  M, R, Q);
    if (patternHash == targetHash && check(target, pattern, 0)) return 0;
    for (int i = M; i < N; i++) {
        // 减去最前面的hash,加上最后面的hash
        targetHash = (targetHash + Q - RM * targetHash * target.charAt(i - M) % Q) % Q;
        targetHash = (targetHash * R + target.charAt(i)) % Q;
        if (targetHash == patternHash && check(target, pattern, i - M + 1)) return i - M + 1;
    }
    return -1;
}
private static long hash(String key, int M, int R, int Q) {
    long h = 0;
    for (int i = 0; i < M; i++)
        h = (R * h + key.charAt(i)) % Q;
    return h;
}
private static boolean check(String target, String pattern, int i) {
    return pattern.equals(target.substring(i, i + pattern.length()));
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容

  • 字符串匹配算法之Sunday算法 背景 我们第一次接触字符串匹配,想到的肯定是直接用2个循环来遍历,这样代码虽然简...
    houskii阅读 9,872评论 10 25
  • 问题描述 对于一个给定的 source 字符串和一个 target 字符串,你应该在 source 字符串中找出 ...
    爱秋刀鱼的猫阅读 1,294评论 2 1
  • 1、BF算法 假设现有一字符串,“BBC ABCDAB ABCDABCDABDE”将其称为给定串,相应有一匹配串“...
    橙小汁阅读 679评论 5 13
  • 今天打扮美美的去幼儿园接儿子,儿子的同学喊了句:“姐姐好漂亮”!顿时心里乐开花了!我一边笑着,也一边把小人儿...
    辣妈小秋阅读 2,388评论 1 2
  • R:阅读原文 《管理技能开发(第8版)》,摘录自429-430页 戈登描述了一个帮你有效阐述你的问题的有用模型:"...
    小灵珠阅读 371评论 0 0