- 基本概念
聚类分析法(Cluster Analysis)是研物以类聚的一种现代统计分析方法,在众多的领域中,都需要采用聚类分析作分类研究。 - 分析方法
聚类分析方法分为两大类,一类是系统聚类法(hclust),第两类是快速聚类法(kmeans),快速聚类法是在样本量很大时替代系统聚类法使用的。
按照聚类的对象,还可分为Q型聚类和R型聚类。前者是对样品的聚类,后者是对变量的聚类。 - 聚类统计量
Q型聚类,使用的统计量是距离,包括如下三种常见的距离:
欧式距离:
马氏距离:
兰氏距离:,兰氏距离是绝对值距离的一个扩展。
R型聚类,也就是针对变量进行聚类,使用的是相关系数作为统计量:
相关系数
- 距离矩阵 vs 相关矩阵
距离矩阵长啥样?
因为样本自己到自己的距离为0,所以对角线上的值都为0。相关矩阵和距离矩阵有些类似,但对角线上都是1,因为自己与自己的相似性肯定是1。
这个课程后面是重点讲Q型聚类,相关系数在之前的章节就讲过了。 - 矩阵计算函数
(1)距离矩阵dist()
的用法:
dist(X,method='euclidean',diag=FALSE,upper=FALSE,p=2)
- x为数据矩阵,data.frame;
- method包括“euclidean","maximum",“manhattan“,“canberra”,“binary” or "minkowski",默认为欧式距离;
- diag是是否包含对角元素,默认为无;
- upper为是否需要上三角,默认为下三角矩阵;
- p为Minkowski距离的幂次,默认为p=2(欧式距离)。
(2)相关系数矩阵使用cor(X)