九章算法基础班1.Introducing Algorithm Interview & Coding Style

第一题 Leecode 28. Implement strStr()

传送门:https://leetcode.com/problems/implement-strstr/description/

  1. 我们先来暴力解,上下两个单词挨个字母比较n方复杂度看看情况
  2. KMP,这个是n的复杂度,高大上,我们一会儿在看
1. 暴力解:

思路简单粗暴,但是AC了也,毕竟n方也还算可以。这个题目,基本思路就是两个指针,一个pointer i 指向haystack,一个 pointer j 指向needle。一个一开始遍历:i 上的char和j上的char一样的时候,两个指针分别+1往下走。如果不一样了,指针i 向前移动,到i - j + 1 的位置,j恢复为0。回到最初的起点,呆呆地站在镜子前。

class Solution {
    public int strStr(String haystack, String needle) {
        if(needle.length() == 0){
            return 0;
        }
        int result = -1;
        int m = haystack.length();
        int n = needle.length();
        if(n > m){
            return result;
        }
        
        int i=0;
        int j=0;
        while(i < m && j < n){
            if(haystack.charAt(i) == needle.charAt(j)){
                i++;
                j++;
            }else{
                i = i - j + 1;
                j = 0;
            }
        }
        if(j == n){
            result = i - j;
        }
        return result;
    }
}

没能一次过,原因竟然是,if(j == n) 最后一个if判断, j == n = 1 了。。。忘了j自增。

2. KMP:

俗称,看毛片算法。哈哈哈。"word" W 中找到 "text string" S
KMP核心思想:当发生不匹配的时候,W中包含了让我们知道下一个匹配起点的全部信息, 因此我们不需要再匹配已经匹配过的字符,减少重复工作。
这样看不太懂,我们举个栗子:
Haystack:
0 1 2 3 4 5 6 7 8 9
o o h e l l h e l i
Needle:
0 1 2 3
h e l i

如果根据我们上面暴力解的做法,hel配过了,此时i 指针是5, j指针是3, 发现 l 和 i并不一样,然后我们回到最初的起点,大不了从头再来了。。。i 变成 i - j + 1 = 3, j变成0.
ellheli
heli
我们已经知道ell和heli不匹配了之前,那为什么要费尽再来一遍呢?
i不需要-j再往后移1格了,可以多移动一点儿嘛。

而当匹配另一种字符串的时候,也就是Haystack前缀和后缀一样,如果Needle匹配了一样前缀的之后不匹配了,那我们就知道needle的前缀肯定是匹配得上Haystack目前的后缀的。比过的就不用再比了。

这段解释wiki上真的写的太好了,大家去附录wiki里看 https://en.wikipedia.org/wiki/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm
wiki里有所有匹配情况的栗子,
一个字母都匹配不上的:i+1,j归零;
匹配了一半匹配不上的:
needle前缀如果和haystack前缀不一样:
i+j-1, j归零
needle前缀如果和haystack前缀一样:
i设置成最后一个不匹配的index,j则为前后缀相等的下一个数。

伪代码上线:
歌词大意看完,我们来点儿干货,看看伪代码。你也许已经注意到了,这个KMP关键在于有个前缀后缀匹配,这个跟我们straight forward的暴力思路不一样,不能一眼看出来匹配,所以需要个中间数组来存些东西,也就是匹配信息。好多题目,数组题目,的高级解法都是搞个中间数组。

友情提示,在看下面一段文字之前,去wiki上看例子,不然将会十分抽象!在一下的描述中,我们S是那个厂的数组,W是短的那个,需要在S中找到W。

现在,我们假设有个partial match table T,这个T是啥呢,是在目前mismatch的地方,下一个新match开始的起点。先甭管T是咋来的,下面我们会给T开个段落具体讲,T现在就是天上飞来的,拯救我们的一个array。T里的每个entry物理意义是:假设我们match开始于S[m], 然后S[m+i]和W[i]的时候mismatch了,那么下一个可能的match开始于S中的m+i-T[i]。换句话说,T[i]是mismatch之后,我们回退了几格。由于我们不想重复以前match过的字母给我们的讯息,不想像第一种暴力解法里面,每次失败了都从m+1开始从头来过,我们就需要研究mismatch之后,最少可以退几格。

T数组的物理意义明确了,间接告诉我们两点:第一,T[0] = -1,i=0的时候不match,W[0]第一个字母就没match上,也就是S[m]没match上,我们一格也不能退,必须顺着查看下一个字母。第二一个,尽管下一个可能的match开始于index m+i-T[i],但是我们知道T[i]这个回退了几格的字母是已经match好的了,就是说S中断后面T[i]个字母,和W中前面T[i]个字母已经match了,我们从W[T[i]]开始找match就行了。
上伪代码:

algorithm kmp_search:
    input:
        an array of characters, S (the text to be searched)
        an array of characters, W (the word sought)
    output:
        an array of integers, P (positions in S at which W is found)
        an integer, nP (number of positions)

    define variables:
        an integer, j ← 0 (the position of the current character in S)
        an integer, k ← 0 (the position of the current character in W)
        an array of integers, T (the table, computed elsewhere)

    let nP ← 0

    while j < length(S) do
        if W[k] = S[j] then
            let j ← j + 1
            let k ← k + 1
            if k = length(W) then
                (occurrence found, if only first occurrence is needed, m may be returned here)
                let P[nP] ← j - k, nP ← nP + 1
                let k ← T[k] (T[length(W)] can't be -1)
        else
            let k ← T[k]
            if k < 0 then
                let j ← j + 1
                let k ← k + 1

wiki上贴过来的,已经自己解释自己解释的挺好了。唯一一点儿不清楚的就是那个nP,nP啊,就是所有W在S中出现的起始位置的集合。我们这里题目要求一个,遇到直接返回就行,nP不用。

在探究神奇的T table之前,我们来分析下这个目前的程序的复杂度。 假设T表已经存在,我们上面这个伪代码的复杂度是O(n),n是S的长度。这个程序在while中进行,while是while的S的长度,n。整个过程中,j都在不断地增加。while里只有两个branch,上一个branch,每次匹配j都增加,没什么说的。第二个branch,m每次加上i-T[i], i是匹配上的字符的个数,所以i-T[i]一定大于0。

Partial match table 又叫做failure function,或者跳跃表。我们神秘的T隆重出场了。这个跳跃表,有两种起始条件的形式,第一种是-1 base的,第二种是0based。网上-1based的多一些,例如wiki,但是我看不懂。0based更符合我的理解。 wiki上的table真的是解释的无法吐槽,怎么看都看不懂,我需要狗都能看懂的解释,狗都能的那种啊!这个wiki不推荐真心。B站小哥讲的挺清楚的,KMP中文解释也不错。

首先,要了解两个概念:"前缀"和"后缀"。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。

W = [A, B, C, D, A, B, D]


W的跳跃表

"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例,

  - "A"的前缀和后缀都为空集,共有元素的长度为0;

  - "AB"的前缀为[A],后缀为[B],共有元素的长度为0;

  - "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;

  - "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;

  - "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;

  - "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;

  - "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。

"部分匹配"的实质是,有时候,字符串头部和尾部会有重复。比如,"ABCDAB"之中有两个"AB",那么它的"部分匹配值"就是2("AB"的长度)。搜索词移动的时候,第一个"AB"向后移动4位(字符串长度-部分匹配值),就可以来到第二个"AB"的位置。

附录
有用的链接,也是一个九章的笔记: https://stomachache007.wordpress.com/2017/03/07/414/
KMP 中文解释的好的,0based阮一峰老师: http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html
KMP wiki: https://en.wikipedia.org/wiki/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm
KMP 另一篇中文: http://www.matrix67.com/blog/archives/115
B站中英字幕印度小哥讲解:https://www.bilibili.com/video/av3246487/
-1based解释很清楚的:
https://blog.csdn.net/shengchaohua163/article/details/77141025

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,744评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,505评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,105评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,242评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,269评论 6 389
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,215评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,096评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,939评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,354评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,573评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,745评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,448评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,048评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,683评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,838评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,776评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,652评论 2 354

推荐阅读更多精彩内容

  • 字符串匹配KMP算法详解 1. 引言 以前看过很多次KMP算法,一直觉得很有用,但都没有搞明白,一方面是网上很少有...
    张晨辉Allen阅读 2,398评论 0 3
  • "use strict";function _classCallCheck(e,t){if(!(e instanc...
    久些阅读 2,029评论 0 2
  • 作业:从体能、情感、思维、意义四个相互独立又相互关联的精力源详细阐述你自己目前的一个精力管理。如何进行一个全方位的...
    Tinymint阅读 346评论 2 1
  • 放学去骑着电动车,去接女儿放学,路上,有说有笑,告诉我说:妈妈我最喜欢薛之谦! 我问为什么?她说:虽然他负面新闻很...
    嘉嘉4587阅读 173评论 0 0
  • 稍时,日头拨开云层映出光芒,远处山麓显出彩虹,小雨渐停,日光透过方亭落于亭中石桌,似面铜镜,似潭静水。花儿与草伴着...
    司才林阅读 229评论 8 11