1、有监督
前面介绍的几种方法都有一个条件,即必须有一个已经确定的结局(因变量),然后根据这一结局对自变量进行划分,通常将这些情况称为有监督的(Supervised) 。
2、无监督
但有时可能只有一个连续变量,其他什么都没有。在这种情况下就无法根据结局对其进行划分,只能利用该变量本身的数据来划分,通常将这种情况称为无监督的(Unsupervised) 。
此时一般可以考虑采用聚类分析(Cluster Analysis)
3、聚类分析算法
聚类分析有很多种算法,如层次法、K-means 法、SOM 法、概率模型的方法等。每种算法的思想各不相同,这里不多作介绍,后续我会把每个算法的原理详细书写。
4、聚类分析划分原则
聚类分析总的来说都是基于距离来划分的,两个点距离比较近就划分成一类,距离远的就划分到其他类。有的聚类算法需要在划分前先指定拟划分的类别数(如K-means 法、SOM 法),有的则不需要(如层次法),根据不同算法的思想而有所不同。
一个总的原则就是:保证划分后各类别之间的距离尽量远,类内的距离比较近。
聚类分析完全根据数据本身来划分,不涉及任何的专业知识,但有时会导致划分的类别与专业相悖。因此,在使用聚类分析时需要谨慎。
下图显示了层次法的聚类结果和K-means法的聚类结果:
层次法(左图)是先把距离最近的两个点聚成一类,然后再找第3个最近的点,再聚成一类;不断寻找,直至所有的点都聚成一个大类。所以,这种方法需要自已判断聚成几类合适,如左图中聚成3 类。
K-means 法则通过寻找每一类的中心点,保证该类中的点都距离自己的中心点较近,而其他类中的点都距离自己的中心点较远。所以这种方法需要一开始就确定聚成几类,这样才能指定几个中心点。(所以我的浆片的多组学分析,应该用K-means法比较合适,因为很早就确定了时期分类数)