Day 9 KMP: 28. strStr, 459. 重复子字符串

28. 找出字符串中第一个匹配项的下标

  • 思路
    • example
      • haystack = 'abcabcabd', size = n
      • needle = 'abcabd', size = m, 模式(基准)串
      • output: 3
    • 暴力法: O(nm)
      • abcabcabd (haystack)
      • abcabd(needle: 失败1)
      • \ \ a(needle: 失败2)
      • \ \ \ \ a(needle: 失败3)
      • \ \ \ \ \ \ abcabd(needle: 成功)
class Solution:
    def strStr(self, haystack: str, needle: str) -> int:
        n, m = len(haystack), len(needle)
        for i in range(n-m+1):
            if haystack[i:i+m] == needle:
                return i
        return -1
  • KMP
  • 双指针. i: haystack index; cur: needle (模式串)index
  • 暴力法中的失败1和失败2尝试可以跳过。以失败1为例:
    • abcabcabd (haystack)
    • \,abcabd (虽然模式串中第一个字符a就匹配失败,但从另一个角度模式串黑体字符前面的位置与haystack是不匹配的)
  • abcab (失败1发生时前面的子串, 成功的匹配需要needle中的字符去match haystack中的当前字符c -- 假设指标为i
  • 考虑模式串(因为失败前面的位置两个串有相同部分),利用对称性 (前缀 = 后缀 的最大长度)
    • 前缀: x, ..., i (以ith 结尾,x > 0) 对应的子串
    • 后缀:0, ..., y (以0th开头, y < i) 对应的子串
    • 上面的例子,abcab,最长“公共”前后缀长度 = 2 (模式串中下一个待匹配位置为2)
    • 从而马上进入到(needle: 成功)的情况。
    • 关键:建立模式串的next 数组(模式串的最长公共前后缀长度数组). 这样当模式串的ith位置与haystack[z]匹配失败的时候,调用next[i-1]可得到模式串中准备与haystack[z]比较的位置。(必然有next[i-1] < i) (回退)。
      • abcabd 模式串
      • 000120 next (回退)数组
  • next数组 暴力版, O(m^2)
def getNext(s): # s: 模式串
  nxt = [0]*len(s)
  for i in range(1, len(s)):
    for k in range(i, 0, -1):
      if s[:k] == s[i-k+1:i+1]:
        break
    nxt[i] = k
  return nxt
  • 优化版next数组见下面代码。
    • 思想与strStr主体函数一样,但是在getNext中是模式子串自己与自己的匹配!
  • 复杂度. 时间:O(n+m), 空间: O(m)
class Solution:
    def strStr(self, haystack: str, needle: str) -> int:
        def getNext(s):
            nxt = [0]*len(s)
            cur, i = 0, 1
            while i < len(s):
                if s[cur] == s[i]:
                    nxt[i] = cur + 1
                    cur += 1
                    i += 1
                elif cur != 0: 
                    cur = nxt[cur-1]
                    # i remain unchanged
                else: # cur = 0
                    nxt[i] = 0
                    i += 1
                    # cur remain unchanged, = 0
            return nxt  
        n, m = len(haystack), len(needle)
        nxt = getNext(needle)
        i, cur = 0, 0 # i: haystack中待比较位置,cur: needle中待比较位置
        while i < n: 
            if haystack[i] == needle[cur]:
                i += 1
                cur += 1
            elif cur != 0:
                cur = nxt[cur-1]
                # i remain unchanged
            else: # cur = 0
                i += 1
                # cur remain unchanged
            if cur == m: 
                return i - m
        return -1
class Solution:
    def strStr(self, haystack: str, needle: str) -> int:
        def getNext(needle):
            m = len(needle)
            nxt = [0 for _ in range(m)]
            j, i = 0, 1
            while i < m: 
                if needle[i] == needle[j]:
                    nxt[i] = j + 1
                    i += 1
                    j += 1
                else:
                    if j > 0:
                        j = nxt[j-1]
                    else:
                        i += 1
                        j = 0
            return nxt 
        n, m = len(haystack), len(needle)
        j  = 0 # index in needle 
        i = 0 # index in haystack 
        nxt = getNext(needle)
        while i < n:  
            if haystack[i] == needle[j]:
                i += 1
                j += 1
                if j == m:
                    return i - m
            else:
                if j > 0:
                    j = nxt[j-1]
                else:
                    i += 1
                    j = 0
        return -1 
class Solution:
    def strStr(self, haystack: str, needle: str) -> int:
        def compute_next(s):
            n = len(s) 
            nxt = [0 for _ in range(n)] 
            i = 1
            j = 0
            while i < n:
                if s[i] == s[j]:
                    nxt[i] = j + 1
                    i += 1
                    j += 1
                else:
                    if j > 0:
                        j = nxt[j-1] 
                    else:
                        nxt[i] = 0 
                        i += 1 
            return nxt  
        m, n = len(haystack), len(needle) 
        nxt = compute_next(needle)  
        i, j = 0, 0 
        while i < m:
            if haystack[i] == needle[j]:
                i += 1
                j += 1
            else:
                if j > 0:
                    j = nxt[j-1] 
                else:
                    i += 1
                    j = 0 
            if j == n:
                return i - n 
        return -1 

459. 重复的子字符串

  • 思路
    • example
    • 暴力法: 穷举子串的长度i
      • s[j] vs s[j-i] for j in range(i, n)
  • 复杂度. 时间:O(n^2), 空间: O(1)
class Solution:
    def repeatedSubstringPattern(self, s: str) -> bool:
        n = len(s)
        for i in range(1, n//2+1): # i: length of substring
            if n % i == 0:
                flag = False
                for j in range(i, n):
                    if s[j] != s[j-i]:
                        flag = True
                        break
                if flag == False:
                    return True
        return False
class Solution:
    def repeatedSubstringPattern(self, s: str) -> bool:
        n = len(s)   
        for k in range(1, n//2+1):
            if n % k != 0:
                continue  
            i = k 
            while i < n:
                if s[i-k:i] != s[i:i+k]:
                    break  
                i += k  
            if i == n:
                return True  
        return False       
  • 利用KMP
    • 假设s = s's', 那到s + s = s's's's', 去掉s+s的第一个和最后一个字符。
      • 假设s' = ab, 那到s+s = abababab,
      • 去掉s+s的第一个和最后一个字符: t = bababa, 我们可以在t中找到一个s子串。
  • 下面的版本还可以接着优化(TBA).
class Solution:
    def repeatedSubstringPattern(self, s: str) -> bool:
        def getNext(s): # pattern string
            nxt = [0]*len(s)
            cur = 0 # 
            i = 1 # 
            while i < len(s):
                if s[i] == s[cur]:
                    nxt[i] = cur + 1
                    i += 1
                    cur += 1 
                elif cur != 0:
                    cur = nxt[cur-1]
                else:
                    nxt[i] = 0
                    i += 1
            return nxt
        # 
        nxt = getNext(s)
        ss = s + s
        ss = ss[1:len(ss)-1] 
        n, m = len(ss), len(s)
        i, cur = 0, 0 # i: ss index; cur: s index
        while i < n:
            if ss[i] == s[cur]:
                i += 1 
                cur += 1
            elif cur != 0:
                cur = nxt[cur-1]
            else:
                i += 1
            if cur == m:
                return True
        return False
class Solution:
    def repeatedSubstringPattern(self, s: str) -> bool:
        def getNext(s):
            n = len(s)
            nxt = [0 for _ in range(n)]
            j, i = 0, 1
            while i < n:
                if s[i] == s[j]:
                    nxt[i] = j + 1
                    i += 1
                    j += 1
                else:
                    if j > 0:
                        j = nxt[j-1]
                    else:
                        i += 1
                        j = 0 
            return nxt 
        ss = s + s 
        ss = ss[1:len(ss)-1]
        n, m = len(ss), len(s)
        j, i = 0, 0 
        nxt = getNext(s)
        while i < n:
            if ss[i] == s[j]:
                i += 1
                j += 1
                if j == m:
                    return True 
            else:
                if j > 0:
                    j = nxt[j-1]
                else:
                    i += 1
                    j = 0
        return False
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,313评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,369评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,916评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,333评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,425评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,481评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,491评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,268评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,719评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,004评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,179评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,832评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,510评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,153评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,402评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,045评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,071评论 2 352

推荐阅读更多精彩内容