聚类

一、了解聚类

    聚类就是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据比较相似类别之间的数据相似度比较小;属于无监督学习。

    聚类算法的重点是计算样本项之间的相似度,有时候也称为样本间的距离。

聚类和分类算法的区别

    分类算法是有监督学习,基于有标注的历史数据进行算法模型构建。

    聚类算法是无监督学习,数据集中的数据是没有标注的。

二、相似度

    聚类算法的重点是计算样本项之间的相似度,有时候也称为样本间的距离。    

1、闵可夫斯基距离(Minkowski)

当p为1的时候是曼哈顿距离(Manhattan)

当p为2的时候是欧式距离(Euclidean)

当p为无穷大的时候是切比雪夫距离(Chebyshev)

2、夹角余弦相似度(Cosine):

挖掘数据内在关联的时候可能会用到。设两个向量,夹角余弦相似度。

夹角余弦相似度
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。