【恋上数据结构与算法二】(十二)串(Sequence)

串(Sequence)

◼ 本课程研究的串是开发中非常熟悉的字符串,是由若干个字符组成的有限序列

◼字符串 thank 的前缀(prefix)、真前缀(proper prefix)、后缀(suffix)、真后缀(proper suffix)

串匹配算法

◼ 本课程主要研究串的匹配问题,比如
查找一个模式串(pattern)在文本串(text)中的位置

◼ 几个经典的串匹配算法
蛮力(Brute Force)
KMP
Boyer-Moore
Karp-Rabin
Sunday

◼本课程用 tlen 代表文本串 text 的长度,plen 代表模式串 pattern 的长度

蛮力(Brute Force)

◼ 以字符为单位,从左到右移动模式串,直到匹配成功

◼蛮力算法有 2 种常见实现思路

蛮力1 – 执行过程

蛮力1 – 实现

蛮力1 – 优化

◼ 此前实现的蛮力算法,在恰当的时候可以提前退出,减少比较次数 pi=2

◼因此,ti 的退出条件可以从 ti < tlen 改为
ti – pi <= tlen – plen
ti – pi 是指每一轮比较中 text 首个比较字符的位置

蛮力1 – 优化实现

蛮力2 – 执行过程

蛮力2 – 实现

蛮力 – 性能分析

◼n 是文本串长度,m 是模式串长度

◼ 最好情况
只需一轮比较就完全匹配成功,比较 m 次( m 是模式串的长度)
时间复杂度为 O(m)

◼ 最坏情况(字符集越大,出现概率越低)
执行了 n – m + 1 轮比较( n 是文本串的长度)
每轮都比较至模式串的末字符后失败(m – 1 次成功,1 次失败)
时间复杂度为 O(m ∗ (n − m + 1)),由于一般 m 远小于 n,所以为 O(mn)

KMP

◼KMP 是 Knuth–Morris–Pratt 的简称(取名自3位发明人的名字),于1977年发布

蛮力 vs KMP

◼ 对比蛮力算法,KMP的精妙之处:充分利用了此前比较过的内容,可以很聪明地跳过一些不必要的比较位置

KMP – next表的使用

◼KMP 会预先根据模式串的内容生成一张 next 表(一般是个数组)

KMP – 核心原理

◼当 d、e 失配时,如果希望 pattern 能够一次性向右移动一大段距离,然后直接比较 d、c 字符
前提条件是 A 必须等于 B

◼所以 KMP 必须在失配字符 e 左边的子串中找出符合条件的 A、B,从而得知向右移动的距离

◼向右移动的距离:e左边子串的长度 – A的长度,等价于:e的索引 – c的索引

◼且 c的索引 == next[e的索引],所以向右移动的距离:e的索引 – next[e的索引]

◼总结
如果在 pi 位置失配,向右移动的距离是 pi – next[pi],所以 next[pi] 越小,移动距离越大
next[pi] 是 pi 左边子串的真前缀后缀的最大公共子串长度

KMP – 真前缀后缀的最大公共子串长度

KMP – 得到next表

◼将最大公共子串长度都向后移动 1 位,首字符设置为 负1,就得到了 next 表

KMP – 负1的精妙之处

◼ 相当于在负1位置有个假想的通配字符(哨兵)
匹配成功后 ti++、pi++

KMP – 主算法实现

KMP – 为什么是“最大“公共子串长度?

◼ 假设文本串是AAAAABCDEF,模式串是AAAAB

◼应该将1、2、3中的哪个值赋值给 pi 是正确的?

◼将 3 赋值给 pi
向右移动了 1 个字符单位,最后成功匹配

◼将 1 赋值给 pi
向右移动了 3 个字符单位,错过了成功匹配的机会

◼ 公共子串长度越小,向右移动的距离越大,越不安全

◼ 公共子串长度越大,向右移动的距离越小,越安全

KMP – next表的构造思路

◼已知 next[i] == n

1 如果 pattern.charAt(i) == pattern.charAt(n)
那么 next[i + 1] == n + 1

2 如果 pattern.charAt(i) != pattern.charAt(n)
已知 next[n] == k
如果 pattern.charAt(i) == pattern.charAt(k)
✓那么 next[i + 1] == k + 1
如果 pattern.charAt(i) != pattern.charAt(k)
✓将 k 代入 n ,重复执行 2

KMP – next表的代码实现

KMP – next表的不足之处

◼假设文本串是 AAABAAAAB ,模式串是 AAAAB

◼ 在这种情况下,KMP显得比较笨拙

KMP – next表的优化思路

◼已知:next[i] == n,next[n] == k

◼如果 pattern[i] != d,就让模式串滑动到 nexti位置跟 d 进行比较

◼如果 pattern[n] != d,就让模式串滑动到 nextn位置跟 d 进行比较

◼如果 pattern[i] == pattern[n],那么当 i 位置失配时,模式串最终必然会滑到 k 位置跟 d 进行比较
所以 next[i] 直接存储 nextn即可

KMP – next表的优化实现

KMP – next表的优化效果

KMP – 性能分析

◼KMP 主逻辑
最好时间复杂度:O(m)
最坏时间复杂度:O(n),不超过O(2n)

◼next 表的构造过程跟 KMP 主体逻辑类似
时间复杂度:O(m)

◼KMP 整体
最好时间复杂度:O(m)
最坏时间复杂度:O(n + m)
空间复杂度: O(m)

蛮力 vs KMP

◼ 蛮力算法为何低效?

◼ 当字符失配时
蛮力算法
✓ti 回溯到左边位置
✓pi 回溯到 0

KMP 算法
✓ti 不必回溯
✓pi 不一定要回溯到 0

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,204评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,091评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,548评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,657评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,689评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,554评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,302评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,216评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,661评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,851评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,977评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,697评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,306评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,898评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,019评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,138评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,927评论 2 355

推荐阅读更多精彩内容