算法思想之动态规划(五)——最小编辑距离问题

前言

今天我们继续讨论经典的动态规划问题之最小编辑距离问题

最小编辑距离问题

问题描述

对于两个字符串A和B,我们需要进行插入、删除和修改操作将A串变为B串,定义c0,c1,c2分别为三种操作的代价,请设计一个高效算法,求出将A串变为B串所需要的最少代价。例如将"abc"转化为"adc",c0=5,c1=3,c2=100,最小代价为8。

问题分析

我们先解释下问题描述中为什么最小代价是8。如果插入、删除和修改操作的代价相同,显然,"abc"->"adc"直接将'b'->'d'即可。但是由于多了c0=5,c1=3,c2=100的条件,所以直接进行修改操作其代价为100,显然不是最小代价。最小代价对应的操作应该是使用插入、删除操作代替修改操作——先在'a'与'c'中插入'd',然后删除'b',或者先删除'b',在插入'd'。这样最小代价为8。
其实,该问题实质上是求解A \to B的最小编辑距离,只不过对每种操作赋予了权值。假设两字符串A和B的长度分别为nm。我们需要构建一个(n+1) \times (m+1)的矩阵dp,代表A[0:i] \to B[0:j]的最小代价为dp[i][j]。可能你会疑问,为什么是(n+1) \times (m+1),而不是n \times m呢? 观察下面的矩阵,你可能会找到答案。我们需要在两字符串前添加空字符串来得到增加、删除操作所对应的代价作为初始值。

'' 'a' 'd' 'c'
'' 0 5 10 15
'a' 3
'b' 6
'c' 9

对于矩阵第0行第0列,代表由'' \to '',显然代价为0,即dp[0][0] = 0;
对于矩阵第0行第1列,代表由'' \to a,其代价为c_0,即dp[0][1] = c_0 = 5;
对于矩阵第0行第2列,代表由'' \to ad,其代价为2*c_0,即dp[0][1] = 2 * c_0 = 10;
依次类推,dp[0][j] = j * c_0,0 \leq j \leq m
同样的,对于dp[i][0] = i * c_1,0 \leq i \leq n
那么当 1 \leq i \leq n, 1 \leq j \leq m时,dp[i][j] = ?
下面,我们分两种情况进行讨论:
(1) 当 A[i] == B[j]时,可能的操作即最小代价有以下几种情况:

  • 不需要进行任何操作,此时最小代价就是A[0:i-1] \to B[0:j-1]的最小代价,即dp[i-1][j-1]
  • A[0:i] \to B[0:j-1],然后增加B[j],此时最小代价为A[0:i] \to B[0:j-1]的最小代价 + c_0,即dp[i][j-1] + c_0
  • 先将A[0:i-1] \to B[0:j],然后删除A[i],此时最小代价为A[0:i-1] \to B[0:j]的最小代价 + c_1,即dp[i-1][j] + c_1

此时,dp[i][j] = min\{dp[i-1][j-1], dp[i][j-1] + c0, dp[i-1][j] + c1\};
(2) 当 A[i] \neq B[j]时,可能的操作即最小代价有以下几种情况:

  • 直接将A[i]替换为B[j],此时最小代价就是A[0:i-1] \to B[0:j-1]的最小代价 + c_2,即dp[i-1][j-1] + c_2
  • A[0:i] \to B[0:j-1],然后增加B[j],此时最小代价为A[0:i] \to B[0:j-1]的最小代价 + c_0,即dp[i][j-1] + c_0
  • 先将A[0:i-1] \to B[0:j],然后删除A[i],此时最小代价为A[0:i-1] \to B[0:j]的最小代价 + c_1,即dp[i-1][j] + c_1

此时,dp[i][j] = min\{dp[i-1][j-1] + c_2, dp[i][j-1] + c0, dp[i-1][j] + c_1\};
需要注意的是,c_2 \geq c_0 + c_1时,需要令c_2 = c_0 + c_1,这是因为修改操作可以用增加+删除操作代替,这样的代价比直接进行修改操作的代价要低。问题分析一开始也给出了说明。

代码实现

通过问题分析,可以很容易得用代码实现,下面给出算法的java实现。

public class MinCost {
    public int findMinCost(String A, int n, String B, int m, int c0, int c1, int c2) {
        return core(A, n, B, m, c0, c1, c2);
    }

    public int core(String A, int n, String B, int m, int c0, int c1, int c2) {
        if (A.length() == 0 || B.length() == 0) {
            return 0;
        }
        A = " " + A;
        B = " " + B;
        int[][] dp = new int[n + 1][m + 1];
        // 初始化第0行
        dp[0][0] = 0;
        for (int i = 1; i < m + 1; i++) {
            dp[0][i] = c0 * i;
        }

        // 初始化第0列
        for (int j = 1; j < n + 1; j++) {
            dp[j][0] = c1 * j;
        }

        //update=delete+insert,如果update花费更多就用delete+insert的花费之和替换
        if (c2 >= c0 + c1) {
            c2 = c0 + c1;
        }

        for (int i = 1; i < n + 1; i++) {
            for (int j = 1; j < m + 1; j++) {
                if (A.charAt(i) == B.charAt(j)) {
                    //如果两个字符串中A[i],B[j]的字符都一样的
                    //1.什么都不做就行,0操作
                    int dontChange = dp[i - 1][j - 1];
                    //2.比如由abd→abcd=abc→ab+B串删除c
                    int delete = dp[i - 1][j] + c1;
                    //3.比如由abcd→abcd=abcd→abc+B串插入d
                    int insert = dp[i][j - 1] + c0;
                    dp[i][j] = Math.min((Math.min(dontChange, delete)), insert);
                } else {
                    //1. A abcd → B abce = A abc→B abc + (A abcd → B abce, 替换d为e)
                    int replace = dp[i - 1][j - 1] + c2;
                    //2.比如由A abcd→B abce=A abc→B abce+B串删除e
                    int delete = dp[i - 1][j] + c1;
                    //3.比如由A abcd→B abce=A abcd→B abc+B串插入d
                    int insert = dp[i][j - 1] + c0;
                    dp[i][j] = Math.min((Math.min(replace, delete)), insert);
                }
            }
        }
        return dp[n][m];
    }

    public static void main(String[] args) {
        MinCost minCost = new MinCost();
        String A = "abc";
        int n = A.length();
        String B = "adc";
        int m = B.length();
        int c0 = 3;
        int c1 = 5;
        int c2 = 3;
        int res = minCost.findMinCost(A, n, B, m, c0, c1, c2);
        System.out.println(res);
    }
}

经典问题

未来几篇博文,我将继续对经典的动态规划问题进行整理,敬请关注~
由于本人水平有限,文章难免有欠妥之处,欢迎大家多多批评指正!

写在最后

欢迎大家关注我的个人博客复旦猿

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容