K-means K均值

1.K-Means算法

由于具有出色的速度和良好的可扩展性，K-Means聚类算法算得上是最著名的聚类方法。K-Means算

法是一个重复移动类中心点的过程，把类的中心点，也称重心（centroids），移动到其包含成员的平

均位置，然后重新划分其内部成员。是算法计算出的超参数，表示类的数量；K-Means可以自动分

配样本到不同的类，但是不能决定究竟要分几个类。必须是一个比训练集样本数小的正整数。

有时，类的数量是由问题内容指定的。也有一些问题没有指定聚类的数量，最优的聚类

数量是不确定的。后面我们会介绍一种启发式方法来估计最优聚类数量，称为肘部法则（Elbow

Method）。

K-Means的参数是类的重心位置和其内部观测值的位置。与广义线性模型和决策树类似，K-Means参

数的最优解也是以成本函数最小化为目标。K-Means成本函数公式如下：

image

是第 uk个类的重心位置。成本函数是各个类畸变程度（distortions）之和。每个类的畸变程度等于

该类重心与其内部成员位置距离的平方和。若类内部的成员彼此间越紧凑则类的畸变程度越小，反

之，若类内部的成员彼此间越分散则类的畸变程度越大。求解成本函数最小化的参数就是一个重复配

置每个类包含的观测值，并不断移动类重心的过程。首先，类的重心是随机确定的位置。实际上，重

心位置等于随机选择的观测值的位置。每次迭代的时候，K-Means会把观测值分配到离它们最近的

类，然后把重心移动到该类全部成员位置的平均值那里。