最长重复子串

前言

据统计,在所有程序中,关于字符串处理的程序占到了百分之八十以上,所以关于字符串处理的算法十分多,而且关于数字处理的很多算法同样可以用于字符串中,包括本文提到的快速排序,除此之外关于字符串还有很多其他的算法,比如回文串,重复子串等等,这些问题还可以组合成为更复杂的问题,在字符串处理中,有一些较复杂或者说适用性不广的算法,即这个算法只对这类题目适用,但是他确实很巧妙。当然这些都不是重点,重点是将算法当作艺术去品,看见其魅力便可。闲话少说,开始正文。

问题

这个问题有很多版本,下面的便是一种经典的出题方式(题目来自于网上):
给定一个文本文件作为输入,查找其中最长的重复子字符串。例如,"Ask not what your country can do for you, but what you can do for your country"中最长的重复字符串是“can do for you”,第二长的是"your country"。

讲解

看完这个题目,片刻思忖,相信大多数人会和我一样得到最naive的解法,暴力解决办法,枚举遍历等等,因为这个题目本身给人一种重复性很强的感觉,所以算法的时间复杂度不会太低,想在O(N)时间内解决基本不大可能。naive的解法有我经过思考和参考列举下面两种,不附代码了,只用文字描述。

  • 第一种方法,时间复杂度:O(N^3)

如下图:有一个字符串“abacdbacf”,我们用两个指针,p1从头开始,p2从p1+1开始,进行两层循环,在每层循环内部,寻找p1和p2所指的字符串的最长公共子串,这个思路比较简单,时间复杂度也容易求得,伪代码如下:


def find_longest_repeating_strings(string):
    for p1 in range(len(string)):
        for p2 in range(p1+1, len(string)):
            max = find_common_string()
    return max
  • 第二种方法,时间复杂度:O(N^3)

和第一种方法十分类似,都是遍历的思想,这次从长度开始,同样用两个指针,只是外层循环从1到字符串长度来控制p1和p2所指的要比较子串的长度,时间复杂度也十分容易分析,伪代码如下:

def find_longest_repeating_strings(string):
    for i in range(1, len(string)):
        for p1 in range(len(string)-i):
            for p2 in range(p1+1, len(string)-i):
                max = find_common_string()
    return max
  • 第三种方法,时间复杂度:O(N^2logN)
    这种方法用到了后缀数组,后缀数组是什么呢?用我自己理解来说,后缀是相对于前缀来说,前缀就是一个字符串的左子集,那后缀就是字符串的右子集,字符串的所有右子集的集合便组成了后缀数组。比如字符串“abc”的后缀数组就是["abc","bc","c"],很好理解吧。接下来先讲解第三种方法,以“abacdbacf”为例,然后再讲为什么这样可以,我想像我这种见识少的人会吃惊的。
  1. 求字符串的后缀数组
    求解方法刚才已经说过,得到的后缀数组为:[abacdbacf,bacdbacf,acdbacf,cdbacf,dbacf,bacf,acf,acf,cf,f]
  2. 将字符串的后缀数组按照字典序进行排序
    可以使用任何方法将后缀数组进行排序,排序是按照字符的ASCII排序,我这里选择的是快速排序。排序后的结果为:['abacdbacf', 'acdbacf', 'acf', 'bacdbacf', 'bacf', 'cdbacf', 'cf', 'dbacf', 'f']
  3. 两两从头比较比较排序后的后缀数组相邻的两个字符串的公共子串
    分别比较后缀数组里面相邻的两个字符串的公共子串,得到的最长公共子串即为题目所求,比如“abacdbacf”和“acdbacf”的最长公共子串为“a”,注意这里只需要从头比较,比如“banana”和“ana”的最长公共子串为“”,而不是“ana”,至于原因,接下来解释。

操作的步骤讲解完毕,由于在快速排序中我们的时间复杂度可以达到O(NlogN),所以最终的时间复杂度减少了,为O(N^2logN),为什么可以这样做呢?考虑第一种用两个指针的方法,不失一般性,假设现在指针指向了任意两个字符x,y,接下来需要的便是比较其指向的字符串的公共子串,这和先求后缀子串其实是一个道理,那求后缀子串的优势在哪里呢?不用挨个重复遍历,在得到了后缀数组之后,我们按照字典序进行排序,所有具有最长公共子串的肯定会相邻,所以在得到排好序的后缀数组之后,只需要O(N)的时间复杂度便可得到结果,但是要注意这里的最长公共子串是从第一个字符串开始比较,一旦不同,立马返回,比如“banana”和“ana”的最长公共子串为“”,而不是“ana”,因为您只要稍微想一下,就会发现,“anana”也是后缀数组中的一元素。最后附上代码如下,或者直接从github下载:

def partition(suffix_array, start, end):
    if end <= start:
        return
    index1, index2 = start, end
    base = suffix_array[start]
    while index1 < index2 and suffix_array[index2] >= base:
        index2 -= 1
    suffix_array[index1] = suffix_array[index2]
    while index1 < index2 and suffix_array[index1] <= base:
        index1 += 1
    suffix_array[index2] = suffix_array[index1]
    suffix_array[index1] = base
    partition(suffix_array, start, index1 -  1)
    partition(suffix_array, index1 + 1, end)

def find_common_string(str1, str2):
    if not str1 or not str2:
        return 0, ''
    index1, index2 = 0, 0
    length, comm_substr = 0, ''
    while index1 < len(str1) and index2 < len(str2):
        if str1[index1] == str2[index2]:
            length += 1
            comm_substr += str1[index1]
        else:
            break
        index1 += 1
        index2 += 1
    return length, comm_substr

def find_longest_repeating_strings(string):
    if not string:
        return None, None
    suffix_array = []
    # first, get the suffix arrays
    length = len(string)
    for i in range(length):
        suffix_array.append(string[i:])
    # second, sort suffix array
    start, end = 0, len(suffix_array) - 1
    partition(suffix_array, start, end)
    # third, get the longest repeating substring
    max_length,  repeat_substring = 0, ''
    for i in range(len(suffix_array) - 1):
        common_len, common_substring = find_common_string(suffix_array[i], suffix_array[i+1])
        if common_len > max_length:
            max_length, repeat_substring = common_len, common_substring
    return max_length, repeat_substring

if __name__ == "__main__":
    string = "Ask not what your country can do for you, but what you can do for your country"
    length, substr = find_longest_repeating_strings(string)
    print length, substr

总结

关于字符串的处理有太多的巧招妙招,本文只是其中的一种,总之自己看完这种解法之后,大呼美妙~

不向静中参妙理,纵然颖悟也虚浮 立乎其大 和而不同 古之成大事者,不惟有超世之才,亦必有坚韧不拔之志

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容