使用python画k均值分类图

欢迎关注公众号:老白和他的爬虫

昨天帮小余同学用python画了下k均值分类图,原理比较简单在这里分享一下。

首先小余同学已经用spss做好了族群分类,分类结果如图所示


分类结果

一共有100条结果,这里只截取了部分,今天的程序就是要用python画出这个分类图

1.明确需求

我们需要把100条记录按类别显示在坐标系中,每一个族群需要使用不同的颜色显示,并且我们还需要计算出来每一个族群的中心点,并将这个中心点与普通的点区分开来

2.写入数据

import matplotlib.pyplot as pb
import matplotlib
k=3 #一共三个族群
x=[
   [2,4,7,8,10,11,14,16,19,22,26,28,30,31,34,35,36,45,46,47,48,49,50,52,57,58,63,64,70,71,73,74,75,83,84,85,87,88,89],
   [1,3,5,6,9,12,13,15,17,18,20,21,23,24,25,27,29,32,33,37,38,39,40,42,43,51,66,67,68,69,76,81,82,86],
   [41,44,53,54,55,56,59,60,61,62,65,72,77,78,79,80,90]
   ]
y=[
   [78.75,82.5,78.75,78.25,87.75,81.75,85.25,83.75,87.25,87.75,81.25,89,85.25,80.25,85.25,89,79.25,83.75,78.25,79.25,79.25,80.25,84.25,88.75,79.25,77.25,92.5,79.25,81.25,85.75,92.5,94.5,84.75,81.75,84.25,81.75,82.75,82.25,87.75],
   [69,67.5,75.25,70.25,68.25,65.75,72.75,67.25,69.25,74.75,67.25,71.25,76.25,72.25,71.25,72.75,76.25,63.75,73.25,66.75,72.25,76.25,71.75,62.5,73.75,73.75,65.75,68.25,68.75,75.75,62.75,64,72.75,70.25],
   [54,59.5,51,54,52.25,52.25,51.25,52.25,50,50,58.75,45,52.25,53.75,43,45,53.25]
   ]

将数据写入,这里还有待改进,其实最好是选择读取excel文件,直接自动获取数值,尤其是数据量很大的时候,但我这里偷懒了,直接复制,你可以对它有一定的改进。

3.画出不同族群

#把三个族群分别用不同颜色的圆点表示出来
for i in range(k): 
    if i==0:
        pb.plot(x[i],y[i],'or')
    elif i==1:
        pb.plot(x[i],y[i],'ob')
    elif i==2:
        pb.plot(x[i],y[i],'og')

4.计算中心点

最终画出的分类图需要区别中心点,中心点需要我们自己来计算

#(xa,ya),(xb,yb),(xc,yc)分别表示三个族群的中心点,下面这段代码计算出中心点
nsum = 0 
for i in range(len(x[0])):
    nsum += x[0][i]
xa = nsum / len(x[0])

nsum = 0
for i in range(len(x[1])):
    nsum += x[1][i]
xb = nsum / len(x[1])

nsum = 0
for i in range(len(x[2])):
    nsum += x[2][i]
xc = nsum / len(x[2])

nsum = 0
for i in range(len(y[0])):
    nsum += y[0][i]
ya = nsum / len(y[0])

nsum = 0
for i in range(len(y[1])):
    nsum += y[1][i]
yb = nsum / len(y[1])

nsum = 0
for i in range(len(y[2])):
    nsum += y[2][i]
yc = nsum / len(y[2])

xd = []
for x in range(90):
    xd.append(x)
yd = []
for x in range(90):
    yd.append(77)

你看我这里代码这么长,是我又偷懒了。python本来就是很简洁的语言,不需要想我这段代码这么繁琐,这里其实我们可以封装一个函数,这个函数专门来计算平均值,这样几行就可以得到中心点,这里我计算的三个中心点分别用(xa,ya),(xb,yb),(xc,yc)表示。

计算出来之后,我们就可以画出来

#用正方形把(xa,ya),(xb,yb),(xc,yc)画出来
pb.plot(xa,ya,'or',marker="s",markersize=10)
pb.plot(xb,yb,'ob',marker="s",markersize=10)
pb.plot(xc,yc,'og',marker="s",markersize=10)

为区分出中心点,这里用正方形来表示中心点,并将点的尺寸调大。

5.添加图例说明

画出来的图我们需要添加图例说明,这样才能直白的看出每一个图例表示什么

#添加一个图例说明
myfont = matplotlib.font_manager.FontProperties(fname="DroidSansFallback.ttf")
pb.legend((u'基础级', u'提高级',u'发展级'),loc='best',prop=myfont)

因为我们是中国人,所以我们肯定经常需要用到中文字体。在这里我们要想显示中文字体,必须需要用到自己下载的中文字体,不然中文可能无法显示。我这里用到的字体是"DroidSansFallback.ttf",这里我就不帮你整理了,直接百度搜索这个文件,就能下载到。

6.小余同学的额外需求

一个合格的程序员肯定能满足产品经理的所有要求,一个合格的产品经理一定会不断的向程序员提要求。我是不是合格的程序员我不知道,小余同学一定是个合格的产品经理。图画好后,小余同学要求我加两条虚线区别族群,于是我灵机一动,就这样写

#用(xd,yd),(xe,ye)来画虚线
xd = []
for x in range(90):
    xd.append(x)
yd = []
for x in range(90):
    yd.append(77)
    
xe = []
for x in range(90):
    xe.append(x)
ye = []
for x in range(90):
    ye.append(61)
#应小余同学的要求,给族群画上一条虚线
pb.plot(xd,yd,'ok',marker='s',markersize=1)
pb.plot(xe,ye,'ok',marker='s',markersize=1)

这里的参数是根据已经画好的图像来设置的,你需要在前一步就在控制台显示图形,然后根据的大致的位置设置虚线的坐标。
小余同学的这个需求已经很简单了,她以后肯定是个心疼程序员的产品经理。

7.完整程序代码


import matplotlib.pyplot as pb
import matplotlib
k=3 #一共三个族群
x=[
   [2,4,7,8,10,11,14,16,19,22,26,28,30,31,34,35,36,45,46,47,48,49,50,52,57,58,63,64,70,71,73,74,75,83,84,85,87,88,89],
   [1,3,5,6,9,12,13,15,17,18,20,21,23,24,25,27,29,32,33,37,38,39,40,42,43,51,66,67,68,69,76,81,82,86],
   [41,44,53,54,55,56,59,60,61,62,65,72,77,78,79,80,90]
   ]
y=[
   [78.75,82.5,78.75,78.25,87.75,81.75,85.25,83.75,87.25,87.75,81.25,89,85.25,80.25,85.25,89,79.25,83.75,78.25,79.25,79.25,80.25,84.25,88.75,79.25,77.25,92.5,79.25,81.25,85.75,92.5,94.5,84.75,81.75,84.25,81.75,82.75,82.25,87.75],
   [69,67.5,75.25,70.25,68.25,65.75,72.75,67.25,69.25,74.75,67.25,71.25,76.25,72.25,71.25,72.75,76.25,63.75,73.25,66.75,72.25,76.25,71.75,62.5,73.75,73.75,65.75,68.25,68.75,75.75,62.75,64,72.75,70.25],
   [54,59.5,51,54,52.25,52.25,51.25,52.25,50,50,58.75,45,52.25,53.75,43,45,53.25]
   ]
#把三个族群分别用不同颜色的圆点表示出来
for i in range(k): 
    if i==0:
        pb.plot(x[i],y[i],'or')
    elif i==1:
        pb.plot(x[i],y[i],'ob')
    elif i==2:
        pb.plot(x[i],y[i],'og')
#(xa,ya),(xb,yb),(xc,yc)分别表示三个族群的中心点,下面这段代码计算出中心点
nsum = 0 
for i in range(len(x[0])):
    nsum += x[0][i]
xa = nsum / len(x[0])

nsum = 0
for i in range(len(x[1])):
    nsum += x[1][i]
xb = nsum / len(x[1])

nsum = 0
for i in range(len(x[2])):
    nsum += x[2][i]
xc = nsum / len(x[2])

nsum = 0
for i in range(len(y[0])):
    nsum += y[0][i]
ya = nsum / len(y[0])

nsum = 0
for i in range(len(y[1])):
    nsum += y[1][i]
yb = nsum / len(y[1])

nsum = 0
for i in range(len(y[2])):
    nsum += y[2][i]
yc = nsum / len(y[2])

xd = []
for x in range(90):
    xd.append(x)
yd = []
for x in range(90):
    yd.append(77)
    
xe = []
for x in range(90):
    xe.append(x)
ye = []
for x in range(90):
    ye.append(61)
#用正方形把(xa,ya),(xb,yb),(xc,yc)画出来
pb.plot(xa,ya,'or',marker="s",markersize=10)
pb.plot(xb,yb,'ob',marker="s",markersize=10)
pb.plot(xc,yc,'og',marker="s",markersize=10)
#应小余同学的要求,给族群画上一条虚线
pb.plot(xd,yd,'ok',marker='s',markersize=1)
pb.plot(xe,ye,'ok',marker='s',markersize=1)
#添加一个图例说明
myfont = matplotlib.font_manager.FontProperties(fname="DroidSansFallback.ttf")
pb.legend((u'基础级', u'提高级',u'发展级'),loc='best',prop=myfont)
#在控制台显示图像
pb.show()

最后画出来的分类图


结果图

这里需要说明下,这个程序写的比较草率,只是为了解决很急的需求,有很多待改进的地方。python不仅可以画出分类图,其实也可以直接来进行k均值的分类,这里因为分类小余同学用spss做了分类,所以我只要画图就好了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,313评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,369评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,916评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,333评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,425评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,481评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,491评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,268评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,719评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,004评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,179评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,832评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,510评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,153评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,402评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,045评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,071评论 2 352

推荐阅读更多精彩内容

  • 2009年初开始漫游漫唱,半年里也几乎走遍了半个中国。结束了银川的演出后,买了去嘉峪关的火车,打算倒车回新疆。 从...
    于新源阅读 225评论 1 3
  • 瑜伽可以提高我们的觉知度,要学会转变自己的行为模式。 今天作业:给时间做合理规划,排排座,生命时间有限,身心健康重...
    如是无痕阅读 215评论 0 0
  • 每个早晨醒来 都希望能够把自己打扮的美美的 每天给人一种特别的感觉 但是对于一柜子的衣服又不知道如何下手 哥弟为您...
    G宋鑫阅读 218评论 0 0