英语不咋好,英文的有点理解不了,想着先过一下中文的,有一个整体的印象之后再去具体看英文的文章或者视频。
首先讲的是聚类——即根据相似性将数据分类的过程。
一般是通过距离来判断相似性。
判断距离的方法有:
1 欧式距离:两个点的距离
2 曼哈顿距离(城市街区距离):从一个十字路口到另一个十字路口的距离
d(i,j)=|X1-X2|+|Y1-Y2|.
3 马氏距离:表示数据协方差的距离,是一种尺度无关的度量方式,会将数据先标准化,再进行计算。去掉协方差矩阵就是欧式距离了。
4 夹角余弦:两个向量夹角的余弦值作为相似性判断的依据,越接近于0,越相近。
sklearn常用的聚类算法
降维——保证数据具有代表性或者分类的情况下,将高维数据转化为低维。
聚类属于无监督学习,任务之间存在的关联性可以通过降维处理更好的获得。
sklearn中的降维算法有