《机器学习实战》读书笔记10

K-均值算法概述

回顾前面总结的分类和回归算法，它们都有预期的目标变量，即：“对于输入数据x能预测y”，也因此这类算法统称为监督学习算法。而无监督学习算法寻求解决的问题是“从数据x中能发现什么？”，并且无监督学习算法最好还能够解释“被发现的是合理的”。

聚类（Clustering）是一种无监督的学习，它将相似的对象归到同一个簇中，有点像对数据进行全自动分类，这里的全自动真是“全自动”，因为连类别都是自动构建的，而不是像分类算法那样事先给出的。

K-均值（K-means）算法又是聚类算法之一，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所有数据的均值计算生成。

优点：容易实现。
缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。
适用数据类型：数值型数据。

入门案例

为便于理解K-均值算法是什么及其原理，首先构建了模拟数据，然后用图形展示效果（就不讲解代码是怎么实现的了），请看下图。

人类更容易理解直观的图形化数据，如上图，我们能够感觉出某些数据点考得比较近，因此可以聚合为一个类别（簇）。如果数据量都像上图那么少，那我们可以很自信的说：就分4类了，比较合理，而且我们能够准确地指出那个点应该属于那个簇（类别）。但你要知道，现实生活中的数据量远远大与此示例、且可能是多维的数据，人类脱离计算机是无法处理的。

上图是使用K-均值算法得到的聚类效果，这里k=4，所以为我们分成了四类不同的数据。上图中的红色十字表示的是：这簇数据的质心（可以理解为中心），离开质心越远的点，说明其聚类后的偏差就越大。

上图仍然采用K-均值算法，这次k=6，也就是聚类成6个簇。从效果看还蛮不错的，不是吗？但其实K-均值算法是有缺陷的，请往下看。

我们换一套数据，肉眼直观看，上图的数据应该聚合为3类。的确，数据量少的时候，人类可能比计算机更加高效。

但我们为了学习，仍然调用K-均值算法来试试，k=3，运行后...傻眼了吧，这不符合最佳的聚类效果啊！！！计算机难道是傻子吗？

好吧，我在运行一次...这结果又是什么鬼？！？！其实仔细观察，但就某一个簇（类别）来说，其质心是完全正确的，计算机没毛病。毛病出现在K-均值算法在第一次执行时，会随机选择k个质心，然后再优化该质心（可参见下面的工作原理）。既然是随机选择，那初始簇质心的位置就很重要、也会带来很大的影响。因为存在如上的缺陷，因此要对基础的K-均值算法做优化。

采用更优的二分K-均值聚类算法，这次终于得到了最佳的聚类效果。该算法消除了随机选择带来的不确定性。

工作原理

使用K-均值聚类算法，必须指定要创建的簇的数目k（就是最终分类的数量，个人理解，如果该值是人工指定的，那么是否是最好的，就需要根据结果来评判，必要时调整再算）。

K-均值算法首先从数据集中随机选择k个作为质心。算法会计算每个点到质心的距离。每个点会被分配到距其最近的簇质心，然后紧接着基于新分配到簇的点更新簇质心。以上过程重复数次，直到簇质心不再改变。

上述算法简单有效，但是容易受到初始（随机选择的）簇质心的影响。为了获得更好的聚类效果，可以使用更优的二分K-均值聚类算法。该算法首先将所有的点作为一个簇，然后使用K-均值算法（k=2）对其划分。下一次迭代时，选择有最大误差的簇进行划分。该过程重复直到k个簇创建成功为止。

K-均值算法以及其变种算法并非仅有的聚类算法，另外称为层次聚类的方法也被广泛使用。

一般流程

1.收集数据：使用任意方法。
2.准备数据：需要数值型数据来计算距离，也可以将标称型数据映射为二值型数据再用于距离计算。
3.分析数据：使用任意方法。
4.训练算法：不适用于无监督学习，即无监督学习没有训练过程。
5.测试算法：应用聚类算法、观察结果。可以使用量化的误差指标如误差平方和来评价算法的结果。
6.使用算法：可以用于所希望的任何应用。通常情况下簇质心可以代表整个簇的数据来做出决策。

可使用场景

1.根据客户特征进行聚类
2.根据地理位置（经纬度）进行聚类
......

同类笔记可点击这里查阅