1. k-means的步骤:
先随机选择K个簇中心,
1)划分样本:每个样本分配到距离最近的簇。
2)更新簇中心位置:计算分配之后每个簇的中心位置,更新簇中心位置。
迭代上述过程,直到簇中心位置不变。
2. 代价函数
迭代完成后,每个样本距离所属簇中心的距离的均方和。
稍微说明了下,上述迭代过程就是最小化代价函数的过程(分别从样本相对于簇中心的距离,和簇的位置,两个维度的最小化)
3. 随机初始化
建议的做法,随机选择K个样本,作为初始化簇中心位置。
但这可能会带来局部最优解,为了防止这种情况,可以进行多次kmeans算法(50—1000次),取代价函数最小的聚类结果。这个方法对K值比较小的情况比较有用。K值很大的情况,多次进行kmeans改善不大。
4. 选取聚类数量(K)
一种方法是“肘部法则”——横轴是K,纵轴是代价函数,画出曲线,选择曲线出现明显拐点(“肘部”)的点的横坐标作为最优的K值。但通常实际情况下不会有明显的肘部。
另一种比较常用的方法是,根据实际的业务需求(想要分几类)来确定。
附,老师画的肘部曲线好萌