如何初始化聚类中心?
K均值方法最终可能会得到不同的结果取决于聚类簇的初始化方法。
K均值方法初始化落在局部最优的时候,最后的聚类结果会产生影响。真正的K均值方法所遇到的局部最优且通过最小化这个失真函数J并不能得到很好的结果。
因此如果担心K均值方法会遇到局部最优的问题,如果想提高K均值方法找到最有可能的聚类的几率的话, 能做的是尝试多次随机的初始化,而不是仅仅初始化一次K均值方法就希望它会得到很好的结果。初始化K均值很多次并运行K均值方法很多次通过多次尝试来保证我们最终能得到一个足够好的结果,一个尽可能局部或全局最优的结果。
事实证明,如果你运行K均值方法时所用的聚类数相当小,那么如果聚类数是从2到10之间的任何数的话做多次的随机初始化,通常能够保证你能有一个较好的局部最优解,保证你能找到更好的聚类数据。但是如果K非常大的话,如果K比10大很多,有多个随机初始化就不太可能会有太大的影响,更有可能你的第一次随机初始化就会给你相当好的结果。