K-Means算法局限性:
(1)K-Means算法中聚类中心的个数K需要事先指定,这一点对于一些未知数据存在很大的局限性。
(2)在利用K-Means算法进行聚类之前,需要初始化K个聚类中心,聚类中心选择不好,对于K-Means算法有很大的影响。
为了解决因为初始化的问题带来K-Means算法的问题,改进的K-Means算法即K-Means++算法被提出。
K-Means++算法主要是为了能够在聚类中心的选择过程中选择较优的聚类中心。
K-Means++算法基本思路:
●在数据集中随机选择一个样本点作为第一个初始化的聚类中心;
●选择出其余的聚类中心:
计算样本中的每一个样本点与已经初始化的聚类中心之间的距离,并选择其中最短的距离,记为di;
以概率选择距离最大的样本作为新的聚类中心,重复上述过程,直到K个聚类中心都被确定。
●对K个初始化的聚类中心,利用K-Means算法计算最终的聚类中心。
K-Means++算法Python代码实现:
def get_centroids(points, k):
'''KMeans++的初始化聚类中心的方法
input: points(mat):样本
k(int):聚类中心的个数
output: cluster_centers(mat):初始化后的聚类中心
'''
m, n = np.shape(points)
cluster_centers = np.mat(np.zeros((k , n)))
# 1、随机选择一个样本点为第一个聚类中心
index = np.random.randint(0, m)
cluster_centers[0, ] = np.copy(points[index, ])
# 2、初始化一个距离的序列
d = [0.0 for _ in range(m)]
for i in range(1, k):
sum_all = 0
for j in range(m):
# 3、对每一个样本找到最近的聚类中心点
d[j] = nearest(points[j, ], cluster_centers[0:i, ])
# 4、将所有的最短距离相加
sum_all += d[j]
# 5、取得sum_all之间的随机值
sum_all *= random()
# 6、获得距离最远的样本点作为聚类中心点
for j, di in enumerate(d):
sum_all -= di
if sum_all > 0:
continue
cluster_centers[i] = np.copy(points[j, ])
break
return cluster_centers
输出最终的聚类中心结果:
4.251983540560974 -4.984077082890314
-3.50576728936817 4.447931702030049
-4.545279350193974 -4.630037099534128
4.539765541289269 4.54315573908832
K-Means++算法聚类效果图: