第1章 图像聚类
这一章节主要介绍了几种聚类方法,显示了如何将其用在聚类图像中从而找到相似图片的组。聚类可以用于识别,用于将图像数据集进行分类,用于组织和导航。我们也关注将聚类用于图像间的相似度的可视化。
1.1 K均值聚类(K-meansClustering)
K均值是一个非常简单的聚类算法,将输入数据分到K个类中。K均值是通过循环更新类中心的初始估计值来实现的,其步骤如下:
1.初始化类重心ui, I = 1, …k, 可以通过随机初始化或者使用一些猜测的值;
2.将每一个数据点赋给距离类ci最近的中心;
3.更新中心为赋给某一类的所有数据点的平均值;
4.重复步骤2和3直至收敛。
K均值尽可能地最小化类之间的方差:
其中xj是数据向量。上面的算法是一个启发式的提炼算法,对于大多数的情况是试用的,但是不能够保证得到的结果是最好的。为了避免找到一个不好的中心的初始化的影响,该算法通常是使用不同的初始化中心运行几次。然后从这些结果中选择具有最小方差V的作为最后的结果。
该算法的主要缺陷是,类的数目需要实现确定,也就是说,我们必须一开始指定将数据聚成几类,也就是传入的参数K。这样的话,一个不恰当的选择可能就会导致很差的聚类结果。其优势是实现起来很简单,是并行化的,并且对于大范围的问题不需要任何调整就可以实现很好的结果。