Yu X, Liu H, Zhang Y, et al. Multi-view clustering via efficient representation learning with anchors[J]. Pattern Recognition, 2023: 109860.
摘要翻译
多视图谱聚类因取得了很好的聚类效果因而被广泛关注。尽管很多方法都取得了显著的效果,但经常因为较高的时间复杂度而无法运用在大规模数据集上。另一方面,基于锚点的方法因其较高的效率而闻名。这类方法通常是学习样本和锚点之间的相似关系,然后将其转化为样本之间的相似关系,其中涉及到大量的计算。为了解决上述问题,本文提出了一种通过锚点高效表征学习进行多视图聚类的方法(MERLIN)。不同于使用样本间关系,提出的方法从表示学习的角度来解决多视图的聚类问题。具体来说,MERLIN为不同的视图选择一样的锚点,并且利用这些锚点来学习整合所有视图的共识表示。此外,MERLIN自适应的学习不同视图的权重以全面的利用多视图之间的互补信息。在7个数据集上的实验证明了提出方法的有效性,并且在大规模数据集展现了其高效的适用性。
模型浅析
该模型包含锚点选择,共识表示学习以及k-means聚类三个步骤。
- 锚点选择
常用的锚点选择方法有各视图的锚点选择和共识锚点选择。为了避免由视图特有锚点选择带来的结果偏差,这里使用的是基于共识的锚点选择。具体来说,将数据集样本中的所有视图进行了拼接,然后在该完整数据表示上执行k-means算法。通过将样本划分到不同的组中,可以将类簇的中心点作为锚点。 - 共识表示学习
同时考虑到各视图信息的重要性,在模型的设计中还保留了对视图特有嵌入表示的学习:
该目标的优化采用的是控制变量法,因此该目标被分解为几个不同的子问题解决。其中,关于的计算可以由如下的式子进行推导:
需要优化的子问题如下: - k-means聚类
提出的模型避免了样本到样本间相似关系的计算,使得该模型在大规模数据集上表现出高效的性能。合起来选择锚点,再将其分割为对应到每个视图的锚点矩阵的操作确实使得各视图使用了相同的锚点。总体来看,该方法简单且有效。