Sun M, Zhang P, Wang S, et al. Scalable Multi-view Subspace Clustering with Unified Anchors[C]//Proceedings of the 29th ACM International Conference on Multimedia. 2021: 3528-3536.
摘要翻译
多视图子空间聚类在多媒体应用中有效融合多视图信息方面受到了广泛的关注。考虑到大多数现有方法的立方时间复杂性使其应用于现实的大规模场景具有挑战性,一些研究人员通过对锚点进行采样以捕获不同视图中的分布来解决这一挑战。然而,启发式抽样和聚类过程的分离导致了弱区分锚点。此外,互补的多视图信息由于锚独立构建的,还没有得到很好的利用。为了解决这些问题,我们提出了一个具有统一锚点的可伸缩的多视图子空间聚类(SMVSC)。具体来说,将锚点学习和图构造结合成一个统一的优化框架。因此,学习到的锚点可以更准确地表示实际的潜在数据分布,从而产生更具鉴别性的聚类结构。
最重要的是,作者提出的算法的线性时间复杂度允许多视图子空间聚类方法应用于大规模数据。并设计了一个具有证明收敛性的四步替代优化算法。与目前最先进的多视图子空间聚类方法和大规模定向方法相比,在多个数据集上的实验结果表明,SMVSC方法更有效地实现了类似的或更好的聚类性能。
Mark:基于锚点的MVSC来缓解传统子空间方法的高复杂度。该方法通过独立采样𝑘选定的地标,将大小为𝑛×𝑛的原始全局图替换为大小为𝑛×𝑘的相应锚点图。将锚图融合成共识图,然后进行谱聚类,得到最终聚类结果。基于锚点的子空间方法的整个时间复杂度在每次迭代中降低到O(𝑛),可以应用于大规模任务。
其步骤主要分为三个阶段:
第一阶段,启发式地选择锚点,然后通过从每个视图中的原始数据中采样来固定。
第二阶段,锚定图独立于每个视图构建,没有信息交换。
最后,将特定于视图的锚图直接平等地连接成一个统一的锚图。
但是三个阶段相互独立,视图之间没有相互作用。对于多视图探索不一致性信息不友好。
依据上述不足,作者提出将锚点学习和图构造结合成一个统一的框架,其中共识锚点(来自各视图)与各自的视图排列矩阵共同优化。因此,学习到的锚点可以准确地表示实际的潜在数据分布,从而实现更好的图结构构造。每个视图的重要性也可以通过个体视图对统一图的贡献来自适应地衡量。
模型浅析
base model
给定多视图数据,其中,是第个视图中的维特征,是样本的数量。典型的多视图子空间聚类框架为:
𝛀指的是可以在不同视图之间共同训练全局图的共识正则化术语。在得到融合全局图S后,通过对S进行谱聚类得到最终的聚类结果。
SMVSC
不同于使用全局样本来表示每一个数据点,作者采用锚点策略来选择一组称为锚点或地标的较少数据点来重构底层子空间并捕获流形结构。在现有做法中,锚点的选择可以通过从原始数据空间随机采样或使用𝑘-means获得的聚类中心来获得。
然而,在之前的策略中,锚一旦初始化就被固定,使得锚点学习与图构造隔离。该算法将这两个过程集成到一个共同的框架中,以学习更具有区别性的锚点。此外,从独立的视图生成的锚点将导致不同的锚点集,使图融合变得困难。而视图之间的补充信息还没有得到很好的探索。鉴于这些问题,作者通过投影的统一锚自适应地学习一个公共图,从而得到一个具有互补视图信息和判别锚定结构的统一锚图。因此作者构造了如下的目标函数:
由前序文献的结论,锚点图的左奇异向量等于全图的左奇异向量,即:
因此,通过在上进行SVD得到左奇异向量,并对执行𝑘-means得到最终结果。
关于优化
当同时考虑所有变量时,等式(2)中的优化问题并不是共同凸的。因此,作者提出了一种交替算法来进行优化。即:使用控制变量法,在其他变量固定的情况下对剩余变量进行优化。
-
的更新
当以及固定时,目标函数可以写作关于的优化:
因为每个在相应的视图上是独立的,通过trace来扩展 Frobenius norm并移除与无关的项。
因为所在项有负号,所以上式可以等价为最大化问题:
-
的更新
关于的优化可以转化为如下:
同样,该问题也可以转换为: -
的更新
关于的优化问题:
将其使用二次规划(QP)进行转换,可以得到: -
的更新
随着迭代的进行,上述优化中的四个变量分别用其他变量求解。由于每个子问题都是严格凸的,目标值会单调减小,直到找到最小值或达到收敛条件。
关于矩阵推导的公式