非监督学习之聚类算法(3)--基于层次

层次聚类方法是古老而且常用的聚类方法。层次聚类方法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接个节点。



事实上,层次聚类有两大种策略,一种是自下至上,一种是自上到下。

凝聚的层次聚类算法与分裂的层次聚类算法
凝聚:先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者某个终结条件被满足。
分裂:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。该种方法一般较少使用

AGNES算法(凝聚)

AGNES算法最初将每个对象作为一个簇,然后这些簇根据某些准则被一步一步地合并。例如,在簇A中的一个对象和簇B中的一个对象之间的距离是所有属于不同簇的对象之间最小的,那么A、B可能被合并。这是一种单链接方法,其每一个簇都可以被簇中所有对象代表,两个簇间的相似度由这两个簇中距离最近的数据点的相似度来确定。聚类的合并过程反复进行直到所有的对象最终合并形成一个簇。在聚类中,用户可定义希望得到的簇数目作为一个结束条件。

1、执行步骤

step1:将数据集中的每个样本初始化为一个簇,并放入集合C中。当前簇的个数为q。
step2:当q大于k(目标数量)时在C中找到距离最近的两个簇C(i)和C(j), 将C(i)和C(j)合并,更新集合C。q-1。
step3:循环步骤2直到q=k,返回聚类集合C

2、优缺点

(1)优点

  • 简单,但可能遇到合并点选择困难的情况。如果在某一步没有很好地选择出合并点,很可能导致低质量的聚类结果。

(2)缺点

  • 一旦一组对象被合并,不能撤销
  • 此算法没有良好的可伸缩性,算法的复杂度为O(n的平方),复杂度较高不适合大数据集。

3、代码实现

# coding=utf-8
'''
AGNES算法
'''
import numpy as np
import math
import matplotlib.pyplot as plt

flag = 1

#==============================================
# 计算距离
#==============================================

def euclidean_dist(p, q):
    ''' 
    欧式距离(L2范数)
    INPUT  -> 长度一致的向量1、向量2
    '''
    p = np.mat(p)
    q = np.mat(q)
    return math.sqrt(np.sum(np.power(p-q, 2))) 

def dist_min(C1, C2):
    ''' 
    两个簇中最小距离
    INPUT  -> 簇1、簇2
    '''
    return min(euclidean_dist(i, j) for i in C1 for j in C2)

def dist_max(C1, C2):
    ''' 
    两个簇中最大距离
    INPUT  -> 簇1、簇2
    '''
    return max(euclidean_dist(i, j) for i in C1 for j in C2)

def dist_avg(C1, C2):
    ''' 
    两个簇中平均距离
    INPUT  -> 簇1、簇2
    '''
    return sum(euclidean_dist(i, j) for i in C1 for j in C2)/(len(C1)*len(C2))

#==============================================
# 找到距离最小的簇
#==============================================

def find_Min(ClusterSet):
    ''' 
    找到簇间距离中最小的一对
    INPUT  -> 簇的集合
    '''
    min = 10000
    x = 0
    y = 0
    for i in range(len(ClusterSet)):
        for j in range(len(ClusterSet)):
            if i != j and dist_min(ClusterSet[i], ClusterSet[j]) < min:
                min = dist_min(ClusterSet[i], ClusterSet[j])
                x = i
                y = j
    return (x, y)

#==============================================
# 算法核心部分
#==============================================

def AGNES(dataSet, k):
    ''' 
    AGNES算法
    INPUT  -> 数据集、聚类中心数
    '''
    global flag
    
    # 聚类结果
    output = []
    for i in dataSet:
        temp = []
        temp.append(i)
        output.append(temp)

    # 当前簇个数
    q = len(output)
    
    # 合并更新
    while q >= k:
        # 打印聚类过程
        print('------------------------第'+str(flag)+'次迭代--------------------------')
        for i in range(q):
            print('第'+str(i+1)+'组:', output[i], end='\n')

        x, y = find_Min(output)
        output[x].extend(output[y])
        output.remove(output[y])
        q -= 1
        flag += 1

    print('已收敛,执行结束')

    return output

#========================================================
#  主程序
#========================================================

if __name__ == '__main__':
    a = [np.random.randint(0, 50) for _ in range(50)]
    b = [np.random.randint(10, 100) for _ in range(50)]
    c = [np.random.randint(0, 10) for _ in range(50)]
    points = [[a,b,c] for a,b,c in zip(a,b,c)]

    output = AGNES(dataSet=points, k=5)
    print(output)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容

  • 其他 这篇文章的整体排版主要是根据个人的博客来哒,如果感兴趣的话可以去我的自己搭建的个人博客看这篇文章。 正文 聚...
    DeamoV阅读 1,894评论 0 1
  • 层次聚类 紧接上章,本章主要是介绍和K-Means算法思想不同而的其他聚类思想形成的聚类算法。 k-means算法...
    飘涯阅读 2,546评论 0 16
  • 08 聚类算法 - 聚类算法的衡量指标 五、层次聚类概述 层次聚类方法对给定的数据集进行层次的分解,直到满足某种条...
    白尔摩斯阅读 13,820评论 0 13
  • 周四下午最后一节活动课,当我急匆匆奔到三年级五班教室门前的时候。看到班里一个胖大的小男孩小河正在揪着瘦弱的小涵的衣...
    张峰读书阅读 348评论 1 4
  • 起一蓬冷暖莲蓉 落一身肆意轻松 我有点满足 从开始的如果到现在 虽然 还是旧身的懒程序 却写了文档三两行 没有闪光...
    黑臣丶阅读 97评论 0 4