k-means

一、kmeans简介

k-means:无监督学习算法,用于将给定训练样本D划分成k个类,用Ck表示。

算法原理:

(1) 随机选取k个中心点;

(2) 在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类;

(3) 更新中心点为每类的均值;

(4) j<-j+1 ,重复(2)(3)迭代更新,直至误差小到某个值或者到达一定的迭代步数,误差不变.

空间复杂度  o(N)

时间复杂度  o(I*K*N)

其中N为样本点个数,K为中心点个数,I为迭代次数

 算法流程伪代码

kmeans优缺点

优点:

(1)计算时间短,速度快

(2)容易解释和理解

(3)聚类效果中上

(4)适用于高维

缺点:

(1)对噪声点和孤立点很敏感(通过k-centers算法可以解决)

(2)聚类个数k初始值需提前确定

(3)初始聚类中心的不同选择可能导致完全不同的聚类结果,即产生局部最优解。

(4)需要样本存在均值

二、k-means优化

1. k均值的k值如何选取?

(1) 数据的先验知识,或者数据进行简单分析能得到

(2)基于结构的算法:根据类内距离、类间距离进行度量,如计算类内距离/类间距离,比值越小聚类效果越好;再如使用平均轮廓系数,越趋近于1,聚类效果越好。

(3)基于变化的算法:即定义一个函数,随着K的改变,认为在正确的K时会产生极值。如Gap Statistic论文,参考:gap statistic

(4)基于一致性矩阵的算法:相同k时重复多次进行聚类试验,检测聚类结果是否一致,即温。

(5)基于层次聚类:基于合并或分裂的思想,在一定情况下停止聚类从而利用层次聚类的结果获得K。

(6)交叉验证的方法,一般k都不会太大,如2-10之间.

for k in (2-10)

   重复多次聚类,评价聚类效果(轮廓系数,DBI)和稳定性

选择最优的k

附:轮廓系数定义

轮廓系数结合了凝聚度和分离度,其计算步骤如下:

对于第 i 个对象,计算它到所属簇中所有其他对象的平均距离,记 ai (体现凝聚度);

对于第 i 个对象和不包含该对象的任意簇,计算该对象到给定簇中所有对象的平均距离,记 bi (体现分离度);

第 i 个对象的轮廓系数为 si = (bi-ai)/max(ai, bi);

从上面可以看出,轮廓系数取值为[-1, 1],其值越大越好,且当值为负时,表明 ai<bi, 样本被分配到错误的簇中,聚类结果不可接受。对于接近0的结果,则表明聚类结果有重叠的情况。

4.k均值的初始聚类中心如何选取?

(1)基于kmeans++:聚类中心中心的距离一般都比较远

(2) 基于层次聚类: 先选用层次聚类进行初始聚类,当层次聚类达到终止条件时,将此时的K个簇的聚类中心Ck作为来作为kmeans的初始聚类中心点。关于层次聚类的停止条件,也可以根据每次迭代时的聚类效果进行度量,如平均轮廓系数、DBI系数等,当达到一定指标停止聚类,得到k个簇,或者一直聚类到一个簇,每次迭代都计算聚类性能指标,最后根据效果择优选择一个最好的k,将其聚类中心作为kmeans的初始聚类中心。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容