总结一些聚类评估方法 J_e和Silhouette

总结一些聚类评估方法 J_e和Silhouette。

     聚类的效果咱们要有一个指标来评估它聚的到底好不好。

    1.第一个评估方法呢,我们用如下图中的式子来计算。这个式子的实际含义很简单,x是数据点,m_{i} 是簇的中心点,J_e(e是evaluation的首字母)是一个求和:J_1+J_2+....+J_cJ_1是第一个簇的点到第一个簇中心点的距离的平方(保证是正数)的和,J1当然越小越好,说明这个聚类的效果让这个簇中的各个点到簇中心的距离最恰当,所以效果最好,达到了物以类聚人以群分的效果。

    当然有时候用这种评估方法会出现问题。如果有数据类似下图这种长条式分布,聚类效果将会如下图的右边所示,因为左图中蓝色簇边缘的点离这个簇的中心有点远,这个蓝色簇的评估J蓝 ,反而会不那么小导致总体Je变大,反而呢右图中蓝簇的J值更小,与红色簇的J值和起来比左图还小。于是乎得到了与咱们的直觉相反聚类结果。

图1

图2也反映了这个评估公式的盲区。


图2

2.第二个评估方法,有个英文名叫Silhouette。

\begin{equation}  S(i) = \cfrac{b(i)-a(i)}{max\{b(i),a(i)\}}\end{equation},S是Silhouette的首字母。下面来解释一下这个式子。

        我们假设最后会分成n个簇。

        对于每个样本点都会算出来自己的S(i),比如第一个样本点算出来个S(1)。

        a(i)呢,是一个簇中某代号为i的一个样本点还是这个簇的其他点的距离的平均值。    

        b(i)呢,是取n-1个数的最小值,哪些数呢?一个簇中某代号为i的样本点到其他n-1个簇的所有点的平均距离,这个平均距离有n-1个,取其中最小的那个。也就是这个样本点i,在其他所有簇中,总有一个簇比其他簇更接近这个样本点,我们取这个样本点i到这个最近的簇的平均距离为b(i)。

        下面来分析S(i)的一些性质。因为a,b都是距离,所以a,b大于0。当b>a时,即样本点到自己这个簇的距离更近一些,分子为正。b<a时,即样本点到其他簇竟然还比到自己簇的距离还小,分子为负。当a为0时,聚的超级紧密,分子为b(i),分母为b(i),S取到最大值1。

下图展示了两簇样本点的s值。


图3

        如图3所示,右侧图像的横坐标是s值,纵坐标代表样本点,每来一个样本点,画出它的S值,S值越大,线越长,由于点过于密集导致平行的线条变成了实心的样子。

        右侧图像代表了两个簇的样本点的s值,下面我们分析究竟哪个图对应左侧右上角的一小簇。

        看到S的计算公式里分子是b-a : 表明点到另一个簇的平均距离-点到自己簇的平均距离。所以右上角的一任何一个样本点的是b远大于a的,分子约等于b,分母严格等于b,所以s值约为1。故右侧图的下面图像对应了左侧图右上角那一簇。

        那接下来分析一波为什么左下那一大簇对应于右图上面的图像。注意看左图红圈里的点,这些样本点到自己簇的距离和到另一个簇的距离差不多,所以计算S的分子约为0,所以会出现S=0的现象,得解。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容