机器学习 | kmeans聚类算法学习总结

聚类

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

聚类和分类

分类:指从数据中归纳出一种做判断的模型,对于新的数据,通过这个模型,可以给出对应的标签。(如垃圾邮件过滤,带“推销房子”词语的标注为垃圾邮件,通过训练,再有带“推销房子”词语的邮件,就判断为垃圾邮件)
聚类:将数据划分成不同区间,但是具体怎么划分的事先并不清楚,只知道每个区间内的数据具有一定的相似度,在最终结论出来之前不知道哪一类有什么特点,新数据出现时候判断与哪一类数据相似度最高,就把它归到哪一类。简单说就是把相似的东西聚在一起,而不关心这一类是什么。

K-均值算法

K-均值算法是一种聚类算法,将对象集划分为K个簇,把数据点到原型的某种距离作为优化的目标函数(原型可以理解为簇中心,最能代表簇特征的点)

算法流程

a、随机生成K个中心点
b、计算数据点到各个中心点的距离,把所有数据点归到最近的中心点所在簇
c、根据划分情况,更新所有中心点的值(中心点所在簇中所有数据点的平均值作为更新值)
d、对比上一次划分情况,如果没有数据点改变所属簇,则结束,否则重复b和c两步


1.随机生成中心点

2.把数据点归到最近的簇

3.更新中心点

4.重复2和3,直到聚类结果不再变化

全局最优和局部最优

不同中心点会得到不同的聚类结果,有时会出现局部最优的情况


不同聚类结果

显而易见,通常我们不希望出现局部最优的情况,解决该问题的关键在于中心点初始化。

解决算法

这里的损失函数是所有数据点到所属簇中心点的距离的平方和



吴恩达机器学习课程里还提到另外一种中心点选择方法——在数据集中随机找K个数据点作为初始中心点

python实现

一些支持函数

随机生成N个点

"""
随机生成N个二维点,如[2,3]

参数:
N:生成点数
maxX:X维最大值,默认最大值5
maxY:Y维最大值,默认最大值5
minX:X维最小值,默认最小值0
minY:Y维最小值,默认最小值0
decimal:生成随机数后小数位数

返回参数
pointList: 生成点列表
返回类型为数组
"""
def creatPoint(N,maxX=5,maxY=5,minX=0,minY=0,decimal=8):
    pointList=[]
    for i in range(N):
        x=random.uniform(minX,maxX)
        y=random.uniform(minY,maxY)
        x=round_(x,decimal)
        y=round_(y,decimal)
        point=[x,y]
        pointList.append(point)
    return array(pointList)

用echart显示点

"""
用echart显示散点图表

参数:
centerPointList:聚类中心点列表
pointList:点列表
pointClassList:

返回参数:
无
"""
def showEchart(centerPointList,pointList,pointClassList):
    s = Scatter("散点图", width=500, height=500)
    cn = shape(centerPointList)[0]     #centerPointList的个数
    pn=shape(pointList)[0]             #pointList点的个数
    for i in range(cn):
        s.add("中心",[center_point_list[i][0]],[center_point_list[i][1]], symbol_size=16,symbol="diamond")
    for i in range(pn):
        s.add(pointClassList[i],[pointList[i][0]],[pointList[i][1]])
    s.render()

距离度量(二维点的欧式距离)

"""
计算点与点的距离

参数:
va,vb:点二维向量

返回参数:
dist:点的欧式距离
"""
def distEcloud(va,vb):
    return sqrt(sum(power(va-vb,2)))
k-means算法
"""
kmeans函数

参数:
dataList:点
centerList:中心点
distMeas:点的欧式距离计算函数,默认为distEcloud

返回参数
classAndLoss: classAndLoss[:,0]为数组簇类,classAndLoss[:,1]为与中心点距离
"""
def kMeans(centerList,dataList):
    k=shape(centerList)[0]
    m=shape(dataList)[0]
    classAndLoss=mat(zeros((m,2)))
    ChangeFlag=True
    while ChangeFlag:
        ChangeFlag=False
        for i in range(m):                                          #计算每个点最近的中心簇点
            minDist=inf
            minClass=-1
            for j in range(k):
                dist=distEcloud(dataList[i],centerList[j])
                if dist<minDist:
                    minDist=dist
                    minClass=j
            if classAndLoss[i,0] != minClass:
                ChangeFlag=True
            classAndLoss[i,0]=minClass
            classAndLoss[i,1]=minDist
        for cent in range(k):                                      #更新中心簇点
           centerXSum=[]
           centerYSum=[]
           for i in range(m):
               if classAndLoss[i,0]==cent:
                   centerXSum.append(dataList[i][0])
                   centerYSum.append(dataList[i][1])
           if len(centerXSum)!=0:                                       #可能出现一个中心点,没有随机点归到这个类,所以len(centerXSum)作为分母而报错
               centerList[cent][0] = sum(centerXSum) / len(centerXSum)
           if len(centerYSum)!=0:
               centerList[cent][1]=sum(centerYSum)/len(centerYSum)

    return classAndLoss[:,0],classAndLoss[:,1]
主函数
if __name__ == '__main__':
    pn=20                                  #生成随机点数
    cn=3                                   #聚类数
    sample_point_list=creatPoint(pn)       #随机生成点

    minLoss=inf
    minClass=[]
    minCenter=[]


    for i in range(100):                                                                    #随机生成100个中心点集合
        #center_point_list = creatPoint(cn)                                                 # 方法1:随机生成cn个中心点
        center_point_list = createCenterPointBySample(cn, sample_point_list)                # 方法2:从样本点集中随机选择cn个点
        sample_class_list, sample_loss_list = kMeans(center_point_list, sample_point_list)  # 返回点分类向量和距离损失向量
        sumLoss = sum(power(sample_loss_list, 2))                                           # 计算总损失
        if sumLoss < minLoss:
            minLoss = sumLoss
            minClass = sample_class_list
            minCenter = center_point_list

    center_point_list=minCenter
    sample_class_list=minClass
    showEchart(center_point_list,sample_point_list,sample_class_list)
运行结果
聚类结果

问题思考总结

k-means算法简单易于实现,但当数据点数量级较大时候,效率比较低。
二维坐标点的横纵坐标代表对象的两个特征,当对象多个特征使用K-means算法,距离度量公式应该不一样??

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容