在无监督学习(unsupervised learning)中,训练样本的标记信息是未知的。
无监督学习的目标:通过对无标记训练样本的学习来揭露数据的内在性质以及规律。
聚类过程仅仅能自动形成簇结构,簇所对应的概念语义需要由使用者来提供。
聚类的作用:
- 可以作为一个单独的过程,用于寻找数据内在的分布结构。
- 也可以作为其他学习任务的前驱过程。如对数据先进行聚类,然后对每个簇单独训练模型。
希望同一簇的样本尽可能彼此相似,不同簇的样本之间尽可能不同。即:簇内相似度 intra-cluster similarity 高,且簇间相似度 inter-cluster similarity 低.
聚类的性能度量分两类:
- 聚类结果与某个参考模型reference model进行比较,称作外部指标 external index 。
- 直接考察聚类结果而不利用任何参考模型,称作内部指标 internal index 。