动态时间规整(DTW)算法介绍

原文链接:动态时间规整(DTW)算法介绍


导读:通常我们比较两个序列的相似性,可以通过直接点对点计算距离的方式实现。但是当两个序列长度不相等时,原有的方法就变得不适用,比如两个人对同一个词语发音不同,导致阅读同一词语的时长不同,因此就要对序列进行延伸或压缩才能比较两段语音是否阅读的是同一个词语。本期介绍的DTW就是解决这类问题的常用算法。

基本概念

动态时间规整(Dynamic Time Warping,DTW)是按照距离最近原则,构建两个长度不同的序列元素的对应关系,评估两个序列的相似性。在构建两个序列元素对应关系时,需要对序列进行延伸或压缩。以下图为例,两条黑色实线代表两个语音序列,虚线代表两个序列元素的对应关系,可以看出存在某一元素与多个元素存在对应关系,如果换成一个个离散的点表示的话,就是对该点进行了拉伸处理。

DTW算法最早用于语音识别问题,如:语言学习跟读软件中,检测发音是否标准,后来也在传感器动作识别、生物信息比对等方面有所应用。

计算过程

DTW的计算过程主要分为构建累积距离矩阵寻找最短路径两部分,类似于动态规划的过程。现在假设x序列为{3,4,5},y序列为{1,4,2,6},相似度计算采用欧式距离,即d=abs(a-b),我们以此为例介绍DTW算法的计算过程。

step 1 : 构建累积距离矩阵

首先我们形成一个3*4的网格,其中行对应X序列,列对应Y序列,每个网格内元素代表对应点的累积距离。

从左下角开始计算,左下角取值直接套用距离计算公式:3-1=2。然后网格第一列从下往上开始,除了要计算对应点的距离外,还需加上下方相邻网格的距离,进而实现距离的累积。同理,网格第一行从左至右,除了计算对应点距离之外,还需加上左方相邻网格的距离。

其余的网格,除要计算对应点的距离外,还需找到左下方三个点的最小值进行相加。

以此类推,得到最终的累积距离矩阵。

step 2 : 寻找最短路径

从右上角开始,寻找左下方三个点中距离最小的点,以此类推,通过回溯的方式找到最短路径,得到最短距离。注意,从右上角开始至少找到最短路径的便捷方法,路径的起点依旧为左下角的点。

在寻找最短路径的时候,有三个限制条件:

边界条件:起点和终点分别为左下角和右上角。比如:语速不同,读一个词语的开始和结束应该相同。

连续性:只能和相邻的点匹配,不能跨过某个点进行匹配。

单调性:路径上的点随着时间单调进行,不能往左回退。

因此每个点的下一步路径,只有可能存在于右上方的三个点当中。

Python实现

选假设x为参照序列,比较y、z哪一个序列与x最为相似。

import numpy as np

x =np.array([2,0,1,1,2,4,2,1,2,0]).reshape(-1,1)

y = np.array([1,1,2,4,2,1,2,0]).reshape(-1,1)

z = np.array([3,2,2,4,2,1]).reshape(-1,1)

from dtw import dtw

euclidean_norm =lambdax, y: np.abs(x - y)

d1, cost_matrix1, acc_cost_matrix1, path1 = dtw(x, y, dist=euclidean_norm) 

d2, cost_matrix2, acc_cost_matrix2, path2 = dtw(x, z, dist=euclidean_norm) 

print("d1=",d1,"d2=",d2)

import matplotlib.pyplot as plt

plt.imshow(acc_cost_matrix1.T, origin='lower', cmap='gray',interpolation='nearest')plt.plot(path1[0], path1[1],'w')plt.show()

根据计算结果,y与x的距离比z与x的距离更近,因此y相对与x更为相似。具体距离及轨迹线图如下:

参考内容:

1.http://t.zoukankan.com/wangleBlogs-p-10444892.html

2.https://blog.csdn.net/gdp12315_gu/article/details/55667483

3.https://blog.csdn.net/weixin_39910711/article/details/108178110

4.Eamonn J. Keogh, Derivative Dynamic Time Warping

5.DTW(动态时间规整)算法原理与应用

往期推荐:

XGBoost(二):R语言实现

疫情下,你还好吗

R语言爬虫与文本分析

图片相似度识别:pHash算法

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,753评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,668评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,090评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,010评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,054评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,806评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,484评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,380评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,873评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,021评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,158评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,838评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,499评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,044评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,159评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,449评论 3 374
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,136评论 2 356

推荐阅读更多精彩内容