Yu X, Liu H, Zhang Y, et al. Multi-view clustering via efficient representation learning with anchors[J]. Pattern Recognition, 2023: 109860.
摘要翻译
多视图谱聚类因取得了很好的聚类效果因而被广泛关注。尽管很多方法都取得了显著的效果,但经常因为较高的时间复杂度而无法运用在大规模数据集上。另一方面,基于锚点的方法因其较高的效率而闻名。这类方法通常是学习样本和锚点之间的相似关系,然后将其转化为样本之间的相似关系,其中涉及到大量的计算。为了解决上述问题,本文提出了一种通过锚点高效表征学习进行多视图聚类的方法(MERLIN)。不同于使用样本间关系,提出的方法从表示学习的角度来解决多视图的聚类问题。具体来说,MERLIN为不同的视图选择一样的锚点,并且利用这些锚点来学习整合所有视图的共识表示。此外,MERLIN自适应的学习不同视图的权重以全面的利用多视图之间的互补信息。在7个数据集上的实验证明了提出方法的有效性,并且在大规模数据集展现了其高效的适用性。
模型浅析

该模型包含锚点选择,共识表示学习以及k-means聚类三个步骤。
- 锚点选择
常用的锚点选择方法有各视图的锚点选择和共识锚点选择。为了避免由视图特有锚点选择带来的结果偏差,这里使用的是基于共识的锚点选择。具体来说,将数据集样本中的所有视图进行了拼接,然后在该完整数据表示上执行k-means算法。通过将样本划分到不同的组中,可以将类簇的中心点作为锚点。 - 共识表示学习
同时考虑到各视图信息的重要性,在模型的设计中还保留了对视图特有嵌入表示的学习:
其中是视图
的权重,
是视图
的锚点矩阵。
是对应于
的表示,而本文的目标是学习包含所有视图信息的共识嵌入表示
。为了构建
和
的相关关系,作者设计了用于最小化不相似性的目标函数:
为了使得二者进行同时优化,作者将上述两个优化目标进行了组合:其中是用于平衡两项的超参数。考虑到上式是一个迭代的过程,因此更加适合自适应的学习视图权重,因此上式可以变换为如下的优化目标:
是非负向量来平衡不同视图的影响
。该式提供了一种灵活的调整各视图权重的机制,保证了各视图权重的非负性。
该目标的优化采用的是控制变量法,因此该目标被分解为几个不同的子问题解决。其中,关于的计算可以由如下的式子进行推导:
通过求导并将倒数置为0,可以得到关于解:
需要优化的子问题如下:方法的算法表示为:算法中的锚点集合(anchor set)可以对应的分割为
,用于后续的计算。
- k-means聚类
提出的模型避免了样本到样本间相似关系的计算,使得该模型在大规模数据集上表现出高效的性能。合起来选择锚点,再将其分割为对应到每个视图的锚点矩阵的操作确实使得各视图使用了相同的锚点。总体来看,该方法简单且有效。







