[机器学习]第九章 聚类

9.1 聚类任务

常见的无监督学习任务

  • 密度估计

  • 异常检测

  • 聚类

聚类任务将数据集划分为若干个不相交的子集,为每一个样本标上一个簇标记(表示这个样本属于哪个簇),于是得到一个簇标记向量​

9.2 性能度量

在开始一项机器学习任务之前,首先必须要定义好性能度量指标,以便量化的评估模型的好坏。

聚类性能度量的基本想法

“物以类聚”, 相同簇内的样本应该尽可能的相似;“人以群分”, 不同簇内的样本应该经可能的不同。需要定义距离来度量相似性。

两类度量指标

  • 外部指标通过和一个参考模型比较(即和一个专家进行比较)

  • 内部指标不借助任何参考模型

外部指标

假定通过聚类给出的簇划分为C = \{C_1...C_K\}, 参考模型给出的簇划分为C^* = \{C_1^*...C_K^*\}, 令\lambda\lambda^*分别表示聚类给出的簇标记向量以及参考模型给出的簇标记向量, 定义如下量

其中a表示在中属于同一个簇的且在中也属于同一个簇的点对的集合,其他依次类推。显然我们希望ab越大越好。

由于一个点对只能出现在一个集合中,共有个点对,所以a + b + c + d = \frac{m(m - 1) }{2}

  • Jaccard系数

    显然当ab越大时,该系数越大,直观的表达了聚类性能度量的基本想法

    JC = \frac{a}{a + b + c} = \frac{a}{S - b}

  • FM系数

    FMI = \sqrt{\frac{a}{a + b}\frac{a}{a +c}}

  • Rand指数

    RI = \frac{2(a + d)}{m(m - 1)}

内部指标

  • 簇内样本间平均距离

    描述簇内的聚合程度

  • 簇内样本间最大距离

    描述簇内的聚合程度

  • 簇间样本最小距离

    描述两簇之间的距离

  • 两簇间样本中心距离

    描述两簇簇之间的距离

  • DB指数

    显然任意两簇样本内平均距离越小,样本中心越远越好,所以DB指数越小越好

  • Dunn指数

    显然任意两簇,簇内最远距离越小,簇间最小距离越大越好,所以该指数越大越好

9.4 原型聚类

此类算法假设聚类结构能够通过一组原型刻画,在聚类任务中较为通用。一般先对原型进行初始化,然后再对原型进行迭代更新求解

9.4.1 k均值算法

给定样本​,k均值算法针对聚类所得簇划分​最小化平方误差,​

E = \sum^k_{i = 1}\sum_{x \in C_i}||x - \mu_i||^2_2

E值越小,簇内样本相似程度越高,求解该最优划分为NP难问题,k均值算法采用贪心策略通过迭代优化来近似求解

算法流程

image
  • 可设定最大迭代次数,或​的最小更新幅度阈值来防止迭代过久

9.4.2 学习向量量化(Learning Vector Quantization)

LVQ假设数据样本带有类别标记,利用这些监督信息来辅助聚类

算法流程

image
  • 初始化原型向量可如下操作,对第个簇,从类别标记相同的样本中随机选取一个作为原型向量

  • LVQ根据样本与原型向量的距离来划分簇,因此学得一组原型向量后,就得到了样本空间上的一组划分,称为"Voronoi"划分

  • 学习率​越大,每次原型向量更新的幅度就越大

  • 若将簇​所对应的划分区域​中的样本全用原型向量​表示,则可实现数据的有损压缩,称为“向量量化”

9.4.3 高斯混合聚类

k均值和LVQ通过原型向量来刻画聚类结构,而高斯混合聚类通过概率模型来表达聚类原型

高斯分布

  • n维均值向量和n \times n的协方差矩阵决定

高斯混合分布

  • 数据分布由k个高斯成分混合而成,每个高斯分布都有一个混合系数\alpha_i,且\sum_{i=1}^{k}\alpha_i = 1,则为样本在生成过程中,选择第个高斯分布的概率P(z_j = i)对应与\alpha_i

聚类

训练集,令z_j \in \{1,2....k\}表示生成样本的高斯混合成分, 设后验概率为p_M(z_j = i | x_j), 简记为\gamma_{ji}由贝叶斯定义得的后验分布为

image

高斯混合聚类把样本D划分为k个簇(对应k个混合成分),每个样本的簇标记如下确定,选取簇标记后验概率最大的一个做为样本的簇标记,

image

模型参数由EM算法求取

  • 由表达式看,参数通过样本加权平均来估计,权重为每个样本属于该成分的后验概率


算法流程

image

9.5 密度聚类

密度聚类假设聚类结构能通过样本分布的紧密程度确定。

DBSCAN聚类

使用一组“邻域”参数来刻画样本分布的紧密程度,数据集D = \{x_1....x_m\}

  • \epsilon-邻域

    对于样本x_j \in D, N_\epsilon = \{x_i \in D | dist(x_i,x_j) \leq \epsilon\}, 即与样本之间的距离小于\epsilon的样本的集合

  • 核心对象

    x_j\epsilon-邻域内至少包含个MinPts样本,则x_j是一个核心对象

  • 密度直达

    x_j位于x_i\epsilon-邻域中,且x_i是核心对象,则x_jx_i密度直达

  • 密度可达

    若存在样本序列p_1....p_n, 其中p_1 = x_i, p_n = x_j,且p_{i + 1}p_i密度直达,则x_jx_i密度可达

    即存在一条路径使得可以到达的x_i\epsilon-邻域内

  • 密度相连

    x_ix_j存在x_k, 使的x_ix_j均由x_k密度可达,则称x_ix_j密度相连

簇的定义

DBSCAN将簇定义为

由密度可达关系导出的最大密度相连样本集合

  • 连接性

    簇内任意两个样本都是密度相连的

  • 最大性

    簇内样本不与簇外的任何一个样本密度相连

由上定义可看出,这里的簇与图论中的连通分量概念相似

若​为核心对象,由​密度可达的所有样本组成的集合为​,则​为满足连接性与最大性的簇

算法流程

image

9.6 层次聚类

层次聚类尝试在不同层次对数据集进行划分, 从而形成树形的聚类结构

  • 自底向上聚合数据集

  • 自顶向下拆分数据集

AGNES聚类

采用自底向上聚合策略进行聚类,先将数据集中的每一个样本看作一个初始簇, 不断合并距离最近的两个簇,直到达到预设的簇的个数。关键是距离的计算

image
  • 由最小距离计算时:AGNES算法被称为单链接

  • 由最大距离计算时:AGNES算法被称为全链接

  • 由平均距离计算时:AGNES算法被称为均链接

算法流程

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容