编辑距离(Edit Distance),最先是由俄国科学家Vladimir Levenshtein在1965年发明,用他的名字命名,又称Levenshtein距离。是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个替换成另一个字符,插入一个字符,删除一个字符。
假设我们有两个字符串"syk"和"syko"。
1.将两个字符串分别写到行和列中,第一行和第一列的值从0开始增长。
s | y | k | ||
---|---|---|---|---|
0 | 1 | 2 | 3 | |
s | 1 | |||
y | 2 | |||
k | 3 | |||
o | 4 |
2.A出得值取决于:左边的值(1)、上边的值(1)、左上角的值(0)。上面的值和左面的值都要求加1,这样得到1+1=2,1+1=2。A处由于是两个s相同,左上角的值加0.这样得到0+0=0。所以A处取他们里面最小的0.
s | y | k | ||
---|---|---|---|---|
0 | 1 | 2 | 3 | |
s | 1 | A | ||
y | 2 | |||
k | 3 | |||
o | 4 |
3.同理,B出得值取决于:左边的值(0)、上边的值(2)、左上角的值(1)。上面的值和左面的值都要求加1,这样得到2+1=3, 0+1=1。 B处由于是t和s不相同,左上角的值加1.这样得到1+1=2。所以B处取他们里面最小的1.
s | y | k | ||
---|---|---|---|---|
0 | 1 | 2 | 3 | |
s | 1 | 0 | B | |
y | 2 | |||
k | 3 | |||
o | 4 |
4.依次生成矩阵
s | y | k | ||
---|---|---|---|---|
0 | 1 | 2 | 3 | |
s | 1 | 0 | 1 | 2 |
y | 2 | 1 | 0 | 1 |
k | 3 | 2 | 2 | 0 |
o | 4 | 3 | 3 | 1 |
5.最后得到他们的距离=1,根据相似度计算公式:
(1-ld/(double)Math.max(syk.length(), syko.length()))
ld指的是最小编辑距离,就是矩阵最右下角最后求出的值。
所有最后的相似度值为1-1/4 = 0.75
局限性
由于需要利用矩阵,故空间复杂度为O(MN)。这个在两个字符串都比较短小的情况下,能获得不错的性能。不过,如果字符串比较长的情况下,就需要极大的空间存放矩阵。例如:两个字符串都是20000字符,则LD矩阵的大小为:20000 X 20000 X 2=800000000Byte=800MB。
java代码
public static double levenshtein(String str1, String str2) {
//计算两个字符串的长度。
int len1 = str1.length();
int len2 = str2.length();
//建立上面说的数组,比字符长度大一个空间
int[][] dif = new int[len1 + 1][len2 + 1];
//赋初值。
for (int a = 0; a <= len1; a++) {
dif[a][0] = a;
}
for (int a = 0; a <= len2; a++) {
dif[0][a] = a;
}
//计算两个字符是否一样,计算左上的值
int temp;
for (int i = 1; i <= len1; i++) {
for (int j = 1; j <= len2; j++) {
if (str1.charAt(i - 1) == str2.charAt(j - 1)) {
temp = 0;
} else {
temp = 1;
}
//取三个值中最小的
dif[i][j] = min(dif[i - 1][j - 1] + temp, dif[i][j - 1] + 1,
dif[i - 1][j] + 1);
}
}
System.out.println("字符串\"" + str1 + "\"与\"" + str2 + "\"的比较");
//取数组右下角的值,同样不同位置代表不同字符串的比较
System.out.println("差异步骤:" + dif[len1][len2]);
//计算相似度
float similarity = 1 - (float) dif[len1][len2] / Math.max(str1.length(), str2.length());
System.out.println("相似度:" + similarity);
return similarity;
}
//得到最小值
private static int min(int... is) {
int min = Integer.MAX_VALUE;
for (int i : is) {
if (min > i) {
min = i;
}
}
return min;
}