【机器学习小笔记】k-means聚类

  • 在 “无监督学习” 中,样本的标记信息是未知的,目的是通过对无标记训练样本的学习揭示数据的内在性质及规律,为进一步的数据分析提供基础。
  • 聚类试图将数据集中的样本划分为若干个不相交的子集,每个子集称为一个 “簇”,子集的中心点称为 “簇心”。聚类过程仅自动形成若干个簇,簇所对应的意义由使用者来把握。
  • 例如,聚类算法可根据西瓜的密度与含糖率划分为三个簇,使用者则可将这三个簇命名为 “甜西瓜”、“有点甜瓜”、“不甜瓜”。

k-means聚类

一、概括x

算法对原型进行初始化,然后对原型迭代更新求解。

二、补充

  • 距离计算
    欧氏距离: d= \sqrt [] { \sum_{k = 1}^{n} {(x_1^k - x_2^k)^2}}
  • 性能度量:
    平方误差:min E = \sum_{i=1}^k\sum_{x∈C_i}{||x-μ_i||_2^2}
  • k的取值
    1.横坐标为簇心数,纵坐标为损失函数(例如:平方误差的值)。若随着k值的增大,出现了明显的拐点,则取出现拐点时的k值,但未出现明显的拐点,则方法失效。
    Andrew Ng
    2.簇心数的取值是为了使用者接下来的用途服务的。
    例如:若T恤生产商需要生产S、M、L三种类型的T恤,则需要将购买者的数据划分为三类,取簇心作为生产模板,簇心k取3;若T恤生产商需要生产XS、S、M、L、XL五类型的T恤,则需要将购买者的数据划分为五类,取簇心作为生产模板,簇心k取5。
Andrew Ng

三、具体过程

输入:样本集D = {x1,x2,x3,...,xm},聚类簇数k

过程:

从D中随机选择k个样本作为初始均值向量,即簇心向量{μ1, μ2,...,μk}
repeat:
令C{_i} = ɸ(1<= i <= k)
  for x in 样本D:
    计算样本与各簇心{μ1, μ2,...,μk}的距离
    x离哪个簇心近则将其划分到哪个簇({C1, C2, ...,Ck })
  计算新的均值向量(簇心向量)
  更新簇新{μ1, μ2,...,μk}
直到簇心向量未更新,或已最小化平方误差

输出:簇划分(簇标签与簇成员)

四、举个例子

输入:

聚类数k = 3,西瓜样本D如下图:

编号 西瓜密度 西瓜含糖率
1 0.697 0.460
2 0.774 0.376
3 0.634 0.264
.. ... ...
30 0.446 0.459

过程:

  1. 从D中随机选择3个样本作为初始均值向量{μ1, μ2, μ3 }
    假设随机选取的样本为前三个样本,则μ_1 =(0.697, 0.460), μ_2 = (0.774, 0.376), μ_3= (0.634, 0.264)
  2. 计算样本与各簇心{μ1, μ2,...,μk}的距离
    例如:第30个样本据簇心的欧式距离分别为:d_{(30,1)} = \sqrt [] { (0.446 - 0.697)^2 + (0.459 - 0.460)^2}=0.251d_{(30,2)}~ =\sqrt [] { (0.446 - 0.774)^2 + (0.459 - 0.376)^2}=0.338d_{(30,3)}~ =\sqrt [] { (0.446 - 0.634)^2 + (0.459 - 0.264)^2}=0.271
  3. x离哪个簇心近则将其划分到哪个簇({C1, C2, ...,Ck })
    例如:d(30,2)最大,故将第30个样本划分到C2簇。
       簇划分的结果为:C_1={\{x_3, x_5, x_6, x_7, x_8, x_9, x_{10}, x_{13}, x_{14}, x_{17}, x_{18}, x_{19}, x_{20}, x_{23}}\} C_2={\{ x_{11}, x_{12}, x_{16}, x_{20} }\} C_3={\{x_1, x_2, x_4, x_{15}, x_{21}x_{22}, x_{24}, x_{25}, x_{26}, x_{27}, x_{28}, x_{29}}\}
  4. 将样本都划分到3个簇后,计算新的均值向量,更新簇新{μ1, μ2,...,μk}
    例如:μ_{1new} =(0.493, 0.208), μ_{2new }= (0.396, 0.076), μ_{3new}= (0.602, 0.395)
  5. 重复2-3步,直到簇心向量未更新,或已最小化平方误差:min E = \sum_{i=1}^k\sum_{x∈C_i}{||x-μ_i||_2^2}

参考资料
《机器学习》 周志华
《machine learning》 Andrew Ng

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352

推荐阅读更多精彩内容

  • 聚类算法的评价 纯度:每个簇被分配给该簇当中出现数目最多的文档所在的类别,然后可以通过正确分配的文档数除以文档集中...
    Eylen阅读 722评论 0 0
  • 唯品会为迎接4.19大促,推出了一个励志短片。选择了“牛奶咖啡”组合《明天,你好》这首歌作背景音乐。 从唯品会发布...
    妮的明天阅读 264评论 0 0
  • 1. “如果谁能拔出我手中的紫青宝剑,那他就是我的如意郎君。” 神仙也好,妖怪也罢,自己中意足矣。紫霞仙子说如果不...
    文亦小段阅读 2,281评论 15 47
  • 昨夜的街灯阅读 135评论 2 0