LCS详解

LCS是什么

LCS是Longest Common Subsequence的缩写,即最长公共子序列。一个序列,如果是两个或者多个序列的子序列,并且是所有子序列中最长的,则为最长公共子序列。(有序但不连续也为子序列)

  • 序列 13456 和 345674 的最长公共子序列为 3456
  • 序列 ABDBC 和 BCDBA 的最长公共子序列为 BDB

LCS可以用来做什么

  • 生物学上用来进行基因序列比对,以推测序列的结构、功能和演化过程
  • 用来描述两段文字的”相似性“,可以用来辨别是不是抄袭

怎么计算LCS

  • 暴力穷举法

    就是把两个序列所有的子序列都列出来,然后一一进行比较。

    假定字符串 A 和 B 的长度分别为 n 和 m,那么 A 共有 2^n-1 个子序列,B 共有 2^m-1 个子序列,然后将任意两个进行一一比较,最后得出 A 和 B 的最长公共子序列。这种算法的时间复杂度是 O(2^{n+m}) ,复杂度太高,当然不推荐使用。

  • 动态规划法

    记:

    字符串 A ,长度为 n ,从 1 开始;字符串 A ,长度为 n ,从 1 开始。

    A_i=<A_1,A_2,...Ai> 即 A 序列的前 i 个字符 (1\leq i \leq n) (A_i 计做”字符串 A 的 i 前缀)

    B_j=<B_1,B_2,...Bj> 即 B 序列的前 j 个字符 (1\leq j \leq m) (B_j 计做”字符串 B 的 j 前缀)

    如果 A_n=B_m (最后一个字符相同),那么 A 和 B 的最长公共子序列 C 的最后一位 C_k=A_n=B_m ,那么 LCS(A,B)=LCS(A_n-1,B_m-1)+A_n

    如果 A_n\not=B_m ,那么他们的最长公共子序列 C 要么是 LCS(A_{n-1},B_m) ,要么是 LCS(A_n,B_{m-1}) ,所以 LCS(A,B)=max\{LCS(A_{n-1},B_m),LCS(A_n,B_{m-1})\}

    1 2 3 4 5 6 7
    A B D C A B A
    B A B C B D A B

    A_3=B_3= 'C' 那么 LCS(BDC,ABC)=LCS(BD,AB)+'C'

    A_5=B_4='B' 那么 LCS(BDCAB,ABCB)=LCS(BDCA,ABC)+'B'

    A_2\not=B_2 那么 LCS(BD,AB)=max\{LCS(B,AB),LCS(BD,A)\}

    A_4\not=B_5 那么 LCS(BDCA,ABCBD)=max\{LCS(BDC,ABCBD),LCS(BDCA,ABCB)\}

    由以上可以得出

LCS(A_n,B_m)=\begin{cases}LCS(A_{n-1},B_{m-1}+A_n) \quad \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \quad A_n=B_m\\ max\{LCS(A_{n-1},B_m),LCS(A_n,B_{m-1})\} \quad A_n\not=B_m\end{cases}

使用动态规划法求解

首先上一幅图

0_1313577405FsRn.gif

记一个二维数组 c[m,n]c[i,j] 的值为 x_iy_j 的最长公共子序列的长度,然后不难得出当 i=0j=0 的时候 X_iY_j 的最长公共子序列的长度。然后通过动态规划法的公式得出
c(i,j)=\begin{cases}0 \quad \quad \quad \quad i=0,j=0 \\ c(i-1,j-1) \quad \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \quad i>0,j>0,x_i=y_j\\ max\{c(i-1,j),c(i,j-1))\} \quad i>0,j>0,x_i\not=y_j\end{cases}
然后我们通过公式计算 c(1,1) ,因为 x_1y_1 不相等,得出 c(1,1)=max \{ c(0,1),c(1,0) \}=0 。然后依次计算,就会得到图中的值,然后得出 xy 的最长公共子序列的长度为4。我们在计算的时候会发现一个规律:当 x_i=y_j 的时候 c(i,j) 的值为左上角格子的数加1;当 x_i\not=y_j 的时候 c(i,j) 的值为左侧格子和上边格子中的较大的一个。

代码实现

import sys

str1 = sys.argv[1]
str2 = sys.argv[2]

len1 = len(str1)
len2 = len(str2)

maxChildLen = 0

lcs_ss = [[0 for i in range(len2 + 1)] for j in range(len1 + 1)]

for i in range(1, len1 + 1):
    for j in range(1, len2 + 1):
        if str1[i-1] == str2[j-1]:
            lcs_ss[i][j] = lcs_ss[i-1][j-1] + 1
        else:
            lcs_ss[i][j] = max(lcs_ss[i-1][j], lcs_ss[i][j-1])

maxChildLen = lcs_ss[len1][len2]

print("str1: %s" % str1)
print("str2: %s" % str2)
print("LCS: %s" % maxChildLen)

随便输入两个字符串,然后观察打印结果

str1: acedbae
str2: becadeac
LCS: 3

Process finished with exit code 0

若有任何问题,恳请不吝指正。


欢迎关注公众号:「努力给自己看」

二维码
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 专业考题类型管理运行工作负责人一般作业考题内容选项A选项B选项C选项D选项E选项F正确答案 变电单选GYSZ本规程...
    小白兔去钓鱼阅读 8,984评论 0 13
  • 动态规划(Dynamic Programming) 本文包括: 动态规划定义 状态转移方程 动态规划算法步骤 最长...
    廖少少阅读 3,279评论 0 18
  • 算法思想贪心思想双指针排序快速选择堆排序桶排序荷兰国旗问题二分查找搜索BFSDFSBacktracking分治动态...
    第六象限阅读 3,084评论 0 0
  • 官网 中文版本 好的网站 Content-type: text/htmlBASH Section: User ...
    不排版阅读 4,380评论 0 5
  • 清晨,猫宝宝在妈妈的轻吻中醒来,开始了一天的探险:花园里有什么在等着它?它能爬上最喜欢的大树的树顶吗?那个神...
    久久王Anne阅读 476评论 0 2