目的:无监督学习 聚类算法
1. Lesson 108 无监督学习
1. 目的:介绍无监督学习,无标签y,只有特征变量X
2. 应用场景:市场划分、社交网络人群聚类、服务器集群划分
2. Lesson 109 K-Means 算法
1. 目的:介绍K-Means定义及原理
2. K-Means是迭代算法,它做2件事 1)簇分类 2)移动聚类中心
3. 步骤:
1. 随机找2个聚类中心,分别叫:μ_a、μ_b(分为2类)
2. 遍历样本数据中每个点分别与μ_a、μ_b的距离,距离近的便分配到哪个簇中(即:离μ_a近的样本便算到a簇中,否则算到b簇中)
3. 移动聚类中心,将μ_a移动到a簇中所有样本的均值处,μ_b移动到b簇中所有样本的均值处(相当于重新得到了2个聚类中心)
4. 重复上面2,3的过程,直到μ_a、μ_b两个聚类中心的值不再变化
6. 几种距离算法
1. 欧氏距离(Euclidean Distance)
1. 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离:
2. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离(两个n维向量)
2. 曼哈顿距离(Manhattan Distance)
1. 顾名思义,在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。
2. 二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离:
3. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离:
3. 切比雪夫距离 (Chebyshev Distance)
1. 国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?这个距离就叫切比雪夫距离。
2. 二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离
3. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的切比雪夫距离:
5. 标准化欧氏距离 (Standardized Euclidean Distance)
1. 定义: 标准化欧氏距离是针对欧氏距离的缺点而作的一种改进。标准欧氏距离的思路:既然数据各维分量的分布不一样,那先将各个分量都“标准化”到均值、方差相等。假设样本集X的均值(mean)为m,标准差(standard deviation)为s,X的“标准化变量”表示为:
2. 标准化欧氏距离公式:
5. Lesson 110 优化目标
1. 目的:K-Means算法最小代价函数(优化目标),该函数2个目的,1)调试算法效果;2)找到最好的簇,避免局部最优解
6. Lesson 111 随机初始化
1. 目的:初始化聚类中心的方法
2. 在样本数据中随机选择K个点即可(K要小于样本数量m)
3. 如果担心出现局部最优解,可以进行多次随机初始化,并计算出每次随机初始化的代价函数,取最小值的即可
4. 如果分类数量K在2-10之间,经过多次随机初始化,效果会比较好,如果K值较大(成百上千),此方法效果不佳
7. Lesson 112 选取聚类数量
1. 目的:选取聚类数量K的值(无自动化方法)
3. 根据业务场景和需求来定K值