用聚类分析鸢尾花数据

数据集用的是iris也就是一个记录鸢尾属植物品种的样本集，数据集中一共包含了150条记录，每个样本的包含它的萼片长度和宽度，花瓣的长度和宽度以及这个样本所属的具体品种。每个品种的样本量为50条。

#导入数据
attach(iris)
#查看数据结构
str(iris)

#查看数据前3行
head(iris,3)

因为要使用knn包进行聚类分析，则将列Species置为空，将此数据集作为测试数据集

data<-iris[,-5]

第一种方法：层次聚类
层次聚类首先将每个样本单独作为一类，然后将不同类之间距离最近的进行合并，合并后重新计算类间距离。这个过程一直持续到将所有样本归为一类为止。

#首先计算均值和标准差
mean<-sapply(data,mean)
sd<-sapply(data,sd)
#再将数据进行z-score标准化
scaledata<-scale(data,center=mean,scale=sd)
head(scaledata,3)

method表示计算哪种距离。method的取值有：
euclidean 欧几里德距离，就是平方再开方。
maximum 切比雪夫距离
manhattan 绝对值距离
canberra Lance 距离
minkowski 明科夫斯基距离，使用时要指定p值
binary 定性变量距离

#再计算距离
dist<-dist(scaledata,method="euclidean")
#作热力图，通过生成一堆的向量，转换为矩阵，得到想要的数据,去掉行标签和列标签
heatmap(as.matrix(dist),labRow = F,labCol = F)

从图中可以看到颜色越深表示样本间距离越近，大致上可以区分出三到四个区块，其样本之间比较接近。

然后使用hclust函数(d=dist,即样本间的距离矩阵，method为计算类间距离的方法),建立聚类模型，结果存clustemodel变量中，其中ward参数是将类间距离计算方法设置为离差平方和法。使用plot(clustemodel)可以绘制出聚类树图。如果我们希望将类别设为3类，可以使用cutree函数提取每个样本所属的类别。

#使用Ward方法层次聚类
clustemodel<-hclust(dist,method='ward.D')
plot(clustemodel)

#选择聚类的适当个数
library(NbClust)
devAskNewPage(ask = TRUE)#控制（对于当前设备）是否在开始输出新页面之前提示用户,如果TRUE，将来会在启动新页面输出之前提示用户
nc<-NbClust(scaledata,distance="euclidean",min.nc = 2,max.nc = 15,method = "average")
table(nc$Best.n[1,])

barplot(table(nc$Best.n[1,]),xlab = "聚类个数",ylab = "判定准则")

result1<-cutree(clustemodel,k=2)
result1

result2<-cutree(clustemodel,k=3)
result2

最后我们来观察真实地类别和聚类之间的差别

table(iris[,5],result1)

table(iris[,5],result2)

发现virginica类错分了23个样本
最后我们计算3个组的中心点即实心圆，空心圆表示不同样本的位置

plot(data[,1],data[,2])
center<-aggregate(data,list(result1),mean)
points(center[,2],center[,3],pch=19)

层次聚类的特点是：基于距离矩阵进行聚类，不需要原始数据，可用于不同形状的聚类，但它对于异常点非常敏感，对于数据规模较小的数据比较合适，否则计算量会很大，聚类后切分数组可根据业务知识，也可根据聚类树图的特点

第二种方法：K-means聚类
K均值聚类又称为动态聚类，它的计算方法较为简单，也不需要输入距离矩阵。首先要指定聚类的分类个数N，随机取N个样本作为初始类的中心，计算各样本与类中心的距离并进行归类，所有样本划分完成后重新计算类中心，重复这个过程直到类中心不再变化。

在R中使用kmeans函数进行K均值聚类，centers参数用来设置分类个数，nstart参数用来设置取随机初始中心的次数，其默认值为1，但取较多的次数可以改善聚类效果。clustemodel1$cluster可以用来提取每个样本所属的类别。

使用K均值聚类时需要注意，只有在类的平均值被定义的情况下才能使用，还要求事先给出分类个数。一种方法是先用层次聚类以决定个数，再用K均值聚类加以改进。或者以轮廓系数来判断分类个数。改善聚类的方法还包括对原始数据进行变换，如对数据进行降维后再实施聚类。

data<-iris[,1:4]
#决定聚类的个数
library(NbClust)
devAskNewPage(ask = TRUE)
nc<-NbClust(scaledata,min.nc = 2,max.nc = 15,method = "kmeans")
table(nc$Best.n[1,])

barplot(table(nc$Best.n[1,]),xlab = "聚类个数",ylab = "判定准则")

#数据用上面已经标准化后的数据，因为涉及到距离，就要将不同维度上的值域统一
set.seed(123)
#进行K均值聚类
clustemodel1<-kmeans(scaledata,centers = 3,nstart = 10)
#聚类规模
clustemodel1$size

clustemodel1$cluster

最后编辑于：2019.02.11 21:27:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,427评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,551评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,747评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,939评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,955评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,737评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,448评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,352评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,834评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,992评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,133评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,815评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,477评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,022评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,147评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,398评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,077评论 2赞 355

用聚类分析鸢尾花数据

推荐阅读更多精彩内容