层次聚类算法分为:自底向上的AGNES算法和自上而下的DIANA算法
讲一下AGNES算法,没有最仔细,只有更仔细!!!
1,将每个数据点归为一类, 共得到N类, 每类仅包含一个数据点,类与类之间的距离就是它们所包含的数据点之间的距离。
2,找到最接近的两个类并合并成一类, 于是总的类数少了一个。
3,重新计算新的类与所有旧类之间的距离。
4,重复第2步和第3步, 直到最后达到某个要求以后停止(如当前簇类数为初始簇类数10%时停止)
下面给个具体步骤图,不喜勿喷。
①给定如下数据集:每个对象归为一类。
②找到所有数据中距离最近的两个点,如下图
③将该两点横纵坐标取均值得到新的簇类点(在这儿这两个点即分为一类)
④对新得到的数据继续遍历找出距离最小的两个点如下:
⑤继续合并得到新的簇类点。