一、了解聚类
聚类就是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据比较相似,类别之间的数据相似度比较小;属于无监督学习。
聚类算法的重点是计算样本项之间的相似度,有时候也称为样本间的距离。
聚类和分类算法的区别
分类算法是有监督学习,基于有标注的历史数据进行算法模型构建。
聚类算法是无监督学习,数据集中的数据是没有标注的。
二、相似度
聚类算法的重点是计算样本项之间的相似度,有时候也称为样本间的距离。
1、闵可夫斯基距离(Minkowski)
当p为1的时候是曼哈顿距离(Manhattan)
当p为2的时候是欧式距离(Euclidean)
当p为无穷大的时候是切比雪夫距离(Chebyshev)
2、夹角余弦相似度(Cosine):
挖掘数据内在关联的时候可能会用到。设两个向量,夹角余弦相似度。
夹角余弦相似度