机器学习——聚类

英语不咋好,英文的有点理解不了,想着先过一下中文的,有一个整体的印象之后再去具体看英文的文章或者视频。

首先讲的是聚类——即根据相似性将数据分类的过程。

一般是通过距离来判断相似性。

判断距离的方法有:

1 欧式距离:两个点的距离


2 曼哈顿距离(城市街区距离):从一个十字路口到另一个十字路口的距离

d(i,j)=|X1-X2|+|Y1-Y2|.

3 马氏距离:表示数据协方差的距离,是一种尺度无关的度量方式,会将数据先标准化,再进行计算。去掉协方差矩阵就是欧式距离了。


4 夹角余弦:两个向量夹角的余弦值作为相似性判断的依据,越接近于0,越相近。


sklearn常用的聚类算法


降维——保证数据具有代表性或者分类的情况下,将高维数据转化为低维。

聚类属于无监督学习,任务之间存在的关联性可以通过降维处理更好的获得。

sklearn中的降维算法有


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 来源:DataGod 聚类分析是没有给定划分类别的情况下,根据样本相似度进行样本分组的一种方法,是一种非监督的学习...
    城市中迷途小书童阅读 3,435评论 0 3
  • 来源:DataGod 聚类分析是没有给定划分类别的情况下,根据样本相似度进行样本分组的一种方法,是一种非监督的学习...
    流川枫AI阅读 13,286评论 13 18
  • 简介 前面介绍的线性回归,SVM等模型都是基于数据有标签的监督学习方法,本文介绍的聚类方法是属于无标签的无监督学习...
    hiyoung阅读 538评论 0 4
  • 接着机器学习系列文章的脚印,今天介绍一下机器学习的无监督算法--聚类, 内容主要包括以下几个部分:(1)常见的聚类...
    strive鱼阅读 1,874评论 0 0
  • 聚类分析常见方法: 原型聚类(主要K-Means聚类);层次聚类;密度聚类 1.原型聚类(K-Means聚类、学习...
    Mavisval阅读 1,252评论 0 1