「聚类分析」16聚类分析之KMeans算法与K中心点算法

1.聚类

    聚类属于无监督式学习。在无监督式学习中,训练样本的标记信息是未知的,算法通过对无标记样本的学习来揭示蕴含于数据中的性质和规律。聚类算法的任务是根据数据特征将数据集相似的数据划分到同一簇。

2.聚类分析

    聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。

3.聚类算法常用分类

①划分聚类方法

②层次聚类方法

③基于密度的聚类方法

④基于网格的聚类方法

4.聚类分析中相似度的计算方法

(1)连续型属性的相似度计算方法:欧式距离

(2)二值离散型属性的相似度计算方法

数据样本的二值离散型属性的取值情况:

二值离散性属性取值
二值离散性属性距离计算公式

(3)多值离散型属性的相似度计算方法:多值离散型属性转化为二值离散型属性  

(4)混合类型属性的相似度计算方法

    将属性按照类型分组,每个新的数据集中只包含一种类型的属性,然后对每个数据集进行单独的聚类分析,随后把混合类型的属性放在一起处理,进行一次聚类分析。

5.KMeans算法(划分法)

    KMeans也称为K均值,是一种聚类算法。它可以根据数据特征将数据集分成K个不同的簇,簇的个数K是由用户指定的。KMeans算法基于距离来度量实例间的相似程度(与KNN算法一样,大多数问题采用欧氏距离),然后把较为相似的实例划分到同一簇。

(1)聚类的性能度量大致有以下两类:

①外部指标:将聚类结果与某个“参考模型”进行比较。

②内部指标:直接考察聚类结果而不利于参考模型。

(2)聚类算法的过程:

①随机选择k个点作为聚类中心;

②计算各个点到这k个点的距离;

③将对应的点聚到与它最近的这个聚类中心;

④重新计算聚类中心;

⑤比较当前聚类中心与前一次聚类中心,如果是同一个点,得到聚类结果,如果不是,则重复②③④⑤。

(3)聚类算法的实现:

聚类算法的实现
聚类模型结果可视化
聚类模型结果
聚类模型可视化结果

【注】模型效果评估指标说明:

1)inertias_:是K-Means模型对象的属性,它作为没有真实分类结果标签下的非监督式评估指标。表示样本到最近的聚类中心的距离总和。值越小越好,越小表示样本在类间的分布越集中。

2)兰德指数(Rand index):需要给定实际类别信息C,假设n是聚类结果,a表示在C与K中都是同类别的元素对数,b表示在C与K中都是不同类别的元素对数,则兰德指数为:

兰德指数(RI)

RI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。

对于随机结果,RI并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下,指标应该接近零”,调整兰德系数(Adjusted rand index)被提出,它具有更高的区分度:

调整兰德指数(ARI)

ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。

3)同质化得分(Homogeneity):如果所有的聚类都只包含属于单个类的成员的数据点,则聚类结果满足同质性。取值范围[0,1],值越大意味着聚类结果与真实情况越符合。

4)完整性得分(Complenteness):如果作为给定类的成员的所有数据点是相同集群的元素,则聚类结果满足完整性。取值范围[0,1],值越大意味着聚类结果与真实情况越符合。

5)v_meansure_score:同质化和完整性之间的谐波平均值,v=2*(同质化*完整性)/(同质化+完整性),取值范围[0,1],值越大意味着聚类结果与真实情况越符合。

6.k中心点算法

(1)原理

①随机选取k个中心点;

②遍历所有数据,将每个数据划分到最近的中心点中;

③计算每个聚类的平均值,并作为新的中心点;

④重复②③,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代。

(2)与KMeans算法对比

    K-中心点聚类的基本思想和K-Means的思想相同,实质上是对K-means算法的优化和改进。在K-means中,异常数据对其的算法过程会有较大的影响。在K-means算法执行过程中,可以通过随机的方式选择初始质心,也只有初始时通过随机方式产生的质心才是实际需要聚簇集合的中心点,而后面通过不断迭代产生的新的质心很可能并不是在聚簇中的点。如果某些异常点距离质心相对较大时,很可能导致重新计算得到的质心偏离了聚簇的真实中心。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容

  • 聚类算法 前面介绍的集中算法都是属于有监督机器学习方法,这章和前面不同,介绍无监督学习算法,也就是聚类算法。在无监...
    飘涯阅读 41,286评论 3 52
  • 1. Kmeans聚类算法简介 由于具有出色的速度和良好的可扩展性,Kmeans聚类算法算得上是最著名的聚类方法。...
    wujingwin阅读 10,424评论 1 8
  • 摘要:“物以聚类,人以群分”,文章结合自己对现有知识的总结理解从多元统计学的角度阐述聚类分析方法的实际应用意义,并...
    袁慎阅读 1,234评论 0 4
  • 最近在用一款软件学着做一个手机APP的项目!软件名字是Axure!应该好UI设计的很熟悉! 以前没接触过...
    2b0221959192阅读 217评论 0 0
  • 嗨,亲爱的三毛,你好呀!我是在你已故30多年后,真心想走进你的一位小读者,可以说,我们是纸上相逢,是只有我单方...
    卓公子_d66e阅读 388评论 0 0