聚类

1.在无监督学习(unsupervised learning)中,训练样本的标记信息是未知的。

2.无监督学习的目标:通过对无标记训练样本的学习来揭露数据的内在性质以及规律。

3.一个经典的无监督学习任务:寻找数据的最佳表达(representation)。常见的有:

        低维表达:试图将数据(位于高维空间)中的信息尽可能压缩在一个较低维空间中。

        稀疏表达:将数据嵌入到大多数项为零的一个表达中。该策略通常需要进行维度扩张。

        独立表达:使数据的各个特征相互独立。

4.无监督学习应用最广的是聚类(clustering) 。

5.聚类的作用:

        可以作为一个单独的过程,用于寻找数据内在的分布结构。

        也可以作为其他学习任务的前驱过程。如对数据先进行聚类,然后对每个簇单独训练模型。

6.聚类问题本身是病态的。即:没有某个标准来衡量聚类的效果。

        可以简单的度量聚类的性质,如每个聚类的元素到该类中心点的平均距离。

        但是实际上不知道这个平均距离对应于真实世界的物理意义。

        可能很多不同的聚类都很好地对应了现实世界的某些属性,它们都是合理的。

        如:在图片识别中包含的图片有:红色卡车、红色汽车、灰色卡车、灰色汽车。可以聚类成:红色一类、灰色一类;也可以聚类成:卡车一类、汽车一类。


原型聚类

        原型聚类prototype-based clustering假设聚类结构能通过一组原型刻画。

        常用的原型聚类有:

                1.k均值算法k-means。

                2.学习向量量化算法Learning Vector Quantization:LVQ。

                3.高斯混合聚类Mixture-of-Gaussian。

密度聚类

    1.密度聚类density-based clustering假设聚类结构能够通过样本分布的紧密程度确定。

    2.密度聚类算法从样本的密度的角度来考察样本之间的可连接性,并基于可连接样本的不断扩张聚类簇,从而获得最终的聚类结果。

层次聚类

    层次聚类hierarchical clustering 试图在不同层次上对数据集进行划分,从而形成树形的聚类结构。


k-means 算法

定义

1.    给定样本集D =  {\vec{x} _{1},\vec{x} _{2},.....,\vec{x} _{N} },假设一个划分为C = {C_{1},C_{2},...,C_{K} }

        定义该划分的平方误差为: 

                                err = \sum_{k=1}^K \sum_{\vec{x} _{i}\in C_{k}  }^K||\vec{x} _{i} - \vec\mu_{k}||_{2}^2

        其中\vec{\mu _{k} } = \frac{1}{C_{k} }\sum\vec{x} _{i}C_{k} 簇的均值向量。

        err刻画了簇类样本围绕簇均值向量的紧密程度,其值越小,则簇内样本相似度越高

        k-means 算法的优化目标为:最小化 err

2.k-means 的优化目标需要考察D的所有可能的划分,这是一个NP难的问题。实际上k-means 采用贪心策略,通过迭代优化来近似求解。

        首先假设一组均值向量。

        然后根据假设的均值向量给出了D的一个划分。

        再根据这个划分来计算真实的均值向量:

        如果真实的均值向量等于假设的均值向量,则说明假设正确。根据假设均值向量给出的D一个划分确实是原问题的解。

        如果真实的均值向量不等于假设的均值向量,则可以将真实的均值向量作为新的假设均值向量,继续迭代求解。

3.这里的一个关键就是:给定一组假设的均值向量,如何计算出  的一个簇划分?

        k均值算法的策略是:样本离哪个簇的均值向量最近,则该样本就划归到那个簇

优点

        1.计算复杂度低,为O(N*K*q)  ,其中q为迭代次数。

            通常 K和q要远远小于 N,此时复杂度相当于O(N) 。

        2.思想简单,容易实现。

缺点

        1.需要首先确定聚类的数量 K 。

        2.分类结果严重依赖于分类中心的初始化。

        3.通常进行多次k-means,然后选择最优的那次作为最终聚类结果。

        4.结果不一定是全局最优的,只能保证局部最优。

        5.对噪声敏感。因为簇的中心是取平均,因此聚类簇很远地方的噪音会导致簇的中心点偏移。

        6.无法解决不规则形状的聚类。

        7.无法处理离散特征,如:国籍、性别 等。

性质

        1. k-means 实际上假设数据是呈现球形分布,实际任务中很少有这种情况。

        2.与之相比,GMM 使用更加一般的数据表示,即高斯分布。

        3.k-means 假设各个簇的先验概率相同,但是各个簇的数据量可能不均匀。

        4.k-means 使用欧式距离来衡量样本与各个簇的相似度。这种距离实际上假设数据的各个维度对于相似度的作用是相同的。

        5.k-means 中,各个样本点只属于与其相似度最高的那个簇,这实际上是分簇。


sklearn中的k-means

1.随机创建一些二维数据作为训练集,选择二维特征数据,主要是方便可视化

2.分别分为2,3,4簇的,查看聚类效果

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容