概念
所谓“物以类聚,人以群分”,聚类分析就是进行分类。
分为两种:(实际没区别,进行转阵就可以)
- 对变量(指标、列)的聚类——R型
- 对观测值(行)的聚类——Q型
如何分类?
度量远近:(对象—>类—>大类—>更大类)
- 对象之间的远近度量
两点之间的距离:Block绝对距离,欧式距离,Minkowski距离,Chebychev距离
两指标之间的相似系数(必要时进行标准化):夹角余弦,Pearson correlation - 类之间的远近度量
最短距离法,最长距离法,重心法,类平均法
聚类方法
- k-均值聚类
- 想分成几类?如果分成3类,k就是3;
- (随便)确定3个点(种子),将所有对象分为3类(按距离);
- 将3类的中心点(均值)作为新的3个种子,将所有对象重新分为3类;
- 依此,迭代;
- 停止(几乎不再变化/死循环)。
-
系统聚类(分层聚类)
可以形成谱系图:这时候想分成几类的时候切割就行
- 有几个对象分成几类,31个对象分成31类;
- 最近的两类(两点)成一类,一共30类;
- 最近的两类成一类,一共29类;
- 最近的两类成一类,一共28类;
- 依此,每次少一类,最终成1类。