聚类分析

判别分析与聚类分析有一个共同点,就是对样本进行分类,但两者也有所不同,判别分析是在已知有多少类,并且在有训练样本的前题下,利用训练样本得到判别函数,对待测样本进行分类。而聚类分析是预先不知道有多少类的情况下,根据某种规则将样本(或指标)进行分类。

聚类分析这一类方法的共同特点是:事先不知道类别的个数与结构;据以进行分析的数据是对象之间的相似性或相异性的数据。将这些相似(相异)性数据看成是对象之间的“距离”远近的一种度量,将距离近的对象归入一类,不同类之间的对象距离较远。

聚类分析根据分类对象不同分为Q型聚类分析和R型聚类分析。Q型聚类分析是指对样本进行聚类,R型聚类分析是指对变量进行聚类分析。

聚类分析是研究对样本或变量的聚类,在进行聚类分析时,可使用的方法有很多,而这些方法的选择往往与变量的类型是有关系的,由于数据的来源及测量方法的不同,变量大致可以分为两类。

(1)定量变量。也就是通常所说的连续量,如长度、重量、产量、人口、速度和温度等,它们是由测量或计数、统计所得到的量,这些变量具有数值特征,称为定量变量。

(2)定性变量,这些量并非真有数量上的变化,而只有性质上的差异。这些量还可以分为两种,一种是有序变量,它没有数量关系,只有次序关系,如某种产品分为一等品、二等品、三等品等,矿石的质量分为贫矿和富矿,另一种是名义变量,这种变量即无等级关系,也无数量关系,如天气(阴、晴),性别(男、女)、职业(工人、农民、教师、干部)和产品的型号等。

<统计建模与R软件>

https://www.cnblogs.com/think90/p/7133753.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容