1.聚类定义
❶按照个体的特征将其进行分类,使得同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大的差异性。
❷属于无监督学习
❸对样本或者记录进行聚类,采用的相似型指标为距离,具体有欧式距离、欧式平方距离、马氏距离、明式距离。若对指标或者变量进行聚类,相似性指标则采用相似系数,具体有皮尔逊相关系数、夹角余弦、指数相似系数等。
2.kmeans
❶定义:
kmeans算法是指将N个样本划分到K个类中,使得每个点都属于离它最近的质心的类。(质心是一个类内部所有样本点的均值)
❷步骤:
第一步:随机取得K个初始质心。从数据中随机抽取K个点作为初始聚类的中心,有这个中心代表各个类。
第二步:把每个点划分进相应的类。通过计算欧式聚类,把每个点划到距离最近的类中
第三步:重新计算质心。重新计算每个类的新的质心
第四步:对每个点计算到新的质心的欧式距离,重新划分到距离质心最近的那个类中
第五步:不断计算新的质心,直到质心步再发生变化,各类的点则稳定地分到某一类中。
欧式距离衡量的是多维空间中两个点之间的绝对距离,公式如下
3.kmeans的缺陷
❶K值需要预先确定
❷kmeans对初始选取的聚类中心点是敏感的
❸kmens对离群点进行聚类时,K均值会有问题
❹不能处理非球形簇、不同尺寸和不同密度的簇。