K-means K均值

http://vinking934296.iteye.com/blog/2356846
译文链接:https://muxuezi.github.io/posts/6-clustering-with-k-means.html

1.K-Means算法

由于具有出色的速度和良好的可扩展性,K-Means聚类算法算得上是最著名的聚类方法。K-Means算

法是一个重复移动类中心点的过程,把类的中心点,也称重心(centroids),移动到其包含成员的平

均位置,然后重新划分其内部成员。 是算法计算出的超参数,表示类的数量;K-Means可以自动分

配样本到不同的类,但是不能决定究竟要分几个类。 必须是一个比训练集样本数小的正整数。

有时,类的数量是由问题内容指定的。也有一些问题没有指定聚类的数量,最优的聚类

数量是不确定的。后面我们会介绍一种启发式方法来估计最优聚类数量,称为肘部法则(Elbow

Method)。

K-Means的参数是类的重心位置和其内部观测值的位置。与广义线性模型和决策树类似,K-Means参

数的最优解也是以成本函数最小化为目标。K-Means成本函数公式如下:

image

是第 uk个类的重心位置。成本函数是各个类畸变程度(distortions)之和。每个类的畸变程度等于

该类重心与其内部成员位置距离的平方和。若类内部的成员彼此间越紧凑则类的畸变程度越小,反

之,若类内部的成员彼此间越分散则类的畸变程度越大。求解成本函数最小化的参数就是一个重复配

置每个类包含的观测值,并不断移动类重心的过程。首先,类的重心是随机确定的位置。实际上,重

心位置等于随机选择的观测值的位置。每次迭代的时候,K-Means会把观测值分配到离它们最近的

类,然后把重心移动到该类全部成员位置的平均值那里。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容