距离度量以及性能评估方法

一.距离度量

对于聚类,其实之前已经有算法涉及了,比如GMM,这一章开始再次做系统介绍。聚类的核心思想套用一句俗语:“物以类聚,人与群分”,这里面首先有一个“距离”的概念,“聚”是因为“距离近”,“分”是因为“距离远”,下面将常用的“距离”罗列一下,首先定义,样本x_i=(x_{i1},x_{i2},...,x_{in})与样本点x_j=(x_{j1},x_{j2},...,x_{jn})

明科夫斯基距离

d_{ij}=(\sum_{k=1}^n \left|x_{ik}-x_{jk}\right|^p)^{\frac{1}{p}}

这里,p\geq 1,当p=2时称为欧氏距离,p=1称为曼哈顿距离,p=\infty称为切比雪夫距离,这时:

d_{ij}=\max_{k}\left|x_{ik}-x_{jk}\right|

马氏距离

d_{ij}=\left[(x_i-x_j)^TS^{-1}(x_i-x_j)\right]^{\frac{1}{2}}

这里,S为整个样本集X=(x_{ij})_{m\times n}的协方差矩阵

相关系数

r_{ij}=\frac{(x_i-\bar{x_i})^T(x_j-\bar{x_j})}{[(x_i-\bar{x_i})^T(x_i-\bar{x_i})\cdot (x_j-\bar{x_j})^T(x_j-\bar{x_j})]^{\frac{1}{2}}},\bar{x_i}=\frac{1}{n}\sum_{k=1}^nx_{ik},\bar{x_j}=\frac{1}{n}\sum_{k=1}^nx_{jk}\\ d_{ij}=1-r_{ij}

夹角余弦

s_{ij}=\frac{x_i^Tx_j}{[x_i^Tx_i\cdot x_j^Tx_j]^{\frac{1}{2}}}\\ d_{ij}=1-s_{ij}

二.类的定义

有了“距离”的定义,我们就可以进一步定义类了,设T为给定的正数,若样本集合G中任意两个样本x_i,x_j,有:

d_{ij}\leq T

三.性能评估

接下来,我们继续考虑聚类效果的好坏评估标准,显然需要符合我们期望的“物以类聚,人以群分”,有了“距离”的定义之后,我们可以换一个表述:类内距离尽可能小,类间距离尽可能大,所以我们进一步需要对类内距离和类间距离做一个定义

类内距离

类内最大距离

类中任意两个样本之间的最大距离
diam(G)=\max_{x_i,x_j\in G}d_{ij}

类内平均距离

类内任意两样本之间距离的均值

avg(G)=\frac{1}{n_G(n_G-1)}\sum_{x_i\in G}\sum_{x_j\in G}d_{ij}

散布矩阵

A_G=\sum_{i=1}^{n_G}(x_i-\bar{x_G})(x_i-\bar{x_G})^T,\bar{x_G}=\sum_{i=1}^{n_G}x_i

协方差矩阵

S_G=\frac{1}{n-1}A_G

这里,n为样本的维数

类间距离

设两类分别为G_qG_p

最短距离

d_{min}(G_p,G_q)=\min\{d_{ij}\mid x_i\in G_p,x_j\in G_q\}

最长距离

d_{max}(G_p,G_q)\max\{d_{ij}\mid x_i\in G_p,x_j\in G_q\}

中心距离

d_{cen}(G_p,G_q)=d_{\bar{x}_p\bar{x}_q}
这里,\bar{x}_p\bar{x}_q分别为类G_pG_q的中心点

平均距离

d_{avg}(G_p,G_q)=\frac{1}{n_{G_p}n_{G_q}}\sum_{x_i\in G_p}\sum_{x_j\in G_q}d_{ij}

性能评估

所以,我们在此基础上可以构造既能反映类内距离,又能反映类间距离的指标

DB 指数

DBI=\frac{1}{k}\sum_{i=1}^k\max_{j\neq i}(\frac{avg(G_i)+avg(G_j)}{d_{cen}(G_i,G_j)})

显然,DBI越小越好

Dunn指数

DI=\min_{1\leq i\leq k}\left\{\min_{j\neq i}(\frac{d_{min}(G_i,G_j)}{\max_{1\leq l\leq k}diam(G_l)})\right \}

显然,DI越大越好

轮廓系数

SCI=\frac{1}{m}\sum_{i=1}^m\frac{b(x_i)-a(x_i)}{max(b(x_i),a(x_i))}

其中,a(\cdot)表示当前样本与簇内其他样本的平均距离,所以a(\cdot)越小,反映了该簇越聚集,b(\cdot)表示当前样本与其他簇的平均距离的最小值,所以b(\cdot)越大,表示与其他簇越分离,而轮廓系数SCI便是所有样本轮廓系数的均值,可以看出SCI越大越好

则称G为一个类(簇)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容