论文阅读“Structure-guided Deep Multi-view Clustering”

Cui J, Wu X, Zhang H, Dong C, Wen J. Structure-guided deep multi-view clustering[J]. Information Fusion, 2026, 125: 103461.

摘要翻译

深度多视图聚类旨在充分利用来自多个视图的丰富信息，从而提升聚类性能。然而，现有的大多数聚类方法往往没有充分挖掘多视图数据中的结构信息，也缺乏对多视图数据分布特征的有效建模，因此限制了聚类效果。
为了解决这些问题，作者提出了一种结构引导的深度多视图聚类模型（Structure-Guided Deep Multi-View Clustering，SGMVC）。具体来说，作者首先提出了一种基于邻域关系的正样本选择策略，并设计了相应的损失函数。该策略通过构建多视图近邻图，动态地重新定义正样本对，从而挖掘多视图数据内部的局部结构信息，并提高正样本选择的可靠性。
此外，作者进一步引入高斯分布模型来挖掘潜在的结构信息，并设计损失函数来减少不同视图嵌入表示之间的差异。这两种策略分别从局部邻域结构和嵌入空间分布结构两个角度探索多视图结构信息，有助于增强视图间一致性并提升类内紧凑性。实验结果表明，该方法在多个多视图聚类基准数据集上相比现有方法取得了更好的聚类性能。

模型浅析

SGMVC 的核心思想是：在深度多视图聚类中，不仅要学习每个视图的深层语义表示，还要充分挖掘多视图数据中的结构信息。作者认为，现有方法主要存在两个问题：

基于对比学习的多视图聚类方法通常只将“同一样本的不同视图”作为正样本对，忽略了样本之间潜在的局部邻域关系；
一些方法虽然尝试进行跨视图表示对齐，但可能会忽略不同视图嵌入空间中的潜在结构信息。

因此，作者提出了结构引导的深度多视图聚类模型 SGMVC。整体框架如下图所示。

主要包含三个部分：

多视图编码器-解码器模块；
局部结构学习模块；
嵌入结构学习模块。

多视图编码器-解码器模块

给定一个多视图数据集：

$\mathbf{X}=\{X^v \in \mathbb{R}^{N \times d_v}\}_{v=1}^{V}$

其中， $V$ 表示视图数量， $N$ 表示样本数量， $d_v$ 表示第 $v$ 个视图的特征维度。多视图聚类的目标是将 $N$ 个样本划分为 $C$ 个簇。

为了提取不同视图中的潜在表示，作者为每个视图分别构建一个自编码器。对于第 $v$ 个视图，编码器 $f^v$ 将原始样本 $x_i^v$ 映射为潜在表示：

$z_i^v=f^v(x_i^v;\varphi^v)$

其中， $z_i^v$ 表示第 $v$ 个视图中第 $i$ 个样本的潜在表示， $\varphi^v$ 表示对应编码器的参数。

随后，解码器 $g^v$ 根据潜在表示重构原始输入：

$\hat{x}_i^v=g^v(z_i^v;\psi^v) =g^v(f^v(x_i^v;\varphi^v);\psi^v)$

其中， $\psi^v$ 表示第 $v$ 个视图解码器的参数。

该模块通过重构损失训练各个视图的自编码器：

$\mathcal{L}_{recon} = \sum_{v=1}^{V}\mathcal{L}_{recon}^v = \sum_{v=1}^{V} \sum_{i=1}^{N} \left\|x_i^v-\hat{x}_i^v\right\|_2^2$

通过该模块，模型能够从原始多视图特征中学习紧凑的潜在表示，同时尽可能保留每个视图中的有效信息。

局部结构学习模块

在传统的多视图对比学习中，通常将同一样本在不同视图下的表示作为正样本对，而将其他样本全部视为负样本。虽然这种方式能够保证正样本对的准确性，但它忽略了样本之间的语义邻近关系。

例如，两个不同样本虽然不是同一个实例，但如果它们在特征空间中距离较近，且很可能属于同一簇，那么将它们直接作为负样本可能会损害聚类表示的学习。

因此，作者提出利用多视图邻域关系来扩展正样本集合。首先，在每个视图中构建近邻图。对于第 $v$ 个视图，样本 $i$ 和样本 $j$ 之间的邻接关系定义为：

$w_{i,j}^v= \begin{cases} 1, & x_i^v \in \Lambda(x_j^v) \ \text{or} \ x_j^v \in \Lambda(x_i^v) \\ 0, & \text{otherwise} \end{cases}$

其中， $\Lambda(x_i^v)$ 表示样本 $x_i^v$ 在第 $v$ 个视图中的近邻集合。

但是，单个视图中的邻域关系可能受到噪声影响。为了提高正样本选择的可靠性，作者进一步提出跨视图一致邻居选择策略。对于任意两个视图 $v$ 和 $u$ ，只有当样本对在两个视图中都被认为是邻居时，才将其视为可靠邻居：

$W_{i,j}^{vu}= \begin{cases} 1, & w_{i,j}^v=1 \ \text{and} \ w_{i,j}^u=1 \\ 0, & \text{otherwise} \end{cases}$

基于该邻接矩阵，可以得到样本 $i$ 的可靠正样本集合：

$\mathcal{P}_i^{vu} = \{j \mid W_{i,j}^{vu}=1, \forall j \in [1,N]\}$

该过程如下图所示。

相比于只使用同一样本的跨视图表示作为正样本，这种方法能够引入更多潜在的语义正样本，从而缓解假负样本问题，并增强类内紧凑性。

在嵌入空间中，使用余弦相似度衡量两个样本表示之间的相似性：

$s(h_i^v,h_j^u) =\frac{(h_i^v)^T h_j^u} {\left\|h_i^v\right\|\left\|h_j^u\right\|}$

基于可靠正样本集合，视图 $v$ 和视图 $u$ 之间的局部结构对比损失定义为：
$\mathcal{L}_{vu} = -\frac{1}{N} \sum_{i=1}^{N} \log \frac{ \sum_{j \in \mathcal{P}_i^{vu}} \exp(s(h_i^v,h_j^u)/\tau) }{ \sum_{j=1}^{N} \exp(s(h_i^v,h_j^u)/\tau) -\exp(1/\tau) }$

其中， $\tau$ 表示温度系数。

最终，局部结构学习损失为：

$\mathcal{L}_{ls} = \frac{1}{2} \sum_{v=1}^{V} \sum_{u\neq v} \mathcal{L}_{vu}$

该模块的作用是利用跨视图一致的邻域结构构造更加可靠的正样本对，从而提升表示的判别性。

嵌入结构学习模块

除了局部邻域结构，作者还进一步考虑嵌入空间中的潜在结构信息。由于不同视图的数据来源和特征空间存在差异，直接进行跨视图表示对齐可能会导致部分潜在结构信息丢失。

为了解决这个问题，作者引入高斯分布对嵌入表示进行建模。对于第 $v$ 个视图中第 $i$ 个样本的嵌入表示 $h_i^v$ ，假设其服从如下高斯分布：

$p_i^v \sim \mathcal{N}(h_i^v,\eta^2 I)$

其中， $\eta$ 是控制采样方差的参数， $I$ 是单位矩阵。

根据该分布，可以通过高斯采样得到新的样本表示：

$p_i^v=h_i^v+\eta \epsilon$

其中， $\epsilon$ 是从标准高斯分布中采样得到的随机噪声。
作者没有专门学习一个均值和方差网络，而是直接把当前嵌入表示当作高斯分布的均值，把 $\eta^2 I$ 当作固定协方差，用标准高斯噪声进行扰动采样。

这些采样得到的表示可以看作原始样本在嵌入空间中的正样本扩展。为了进一步减少不同视图之间的表示差异，作者引入预测网络 $l(\cdot)$ ，并约束同一样本在不同视图下的采样表示保持一致：

$\mathcal{L}_{es} = \sum_{v=1}^{V} \sum_{u\neq v} \sum_{i=1}^{N} \left\| l(p_i^v)-l(p_i^u) \right\|_2^2$

通过该模块，模型能够在嵌入空间中挖掘潜在结构信息，同时增强不同视图之间的表示一致性。

总体优化目标

SGMVC 采用两阶段训练策略。

第一阶段为预训练阶段，模型分别训练每个视图对应的自编码器，通过最小化重构损失 $\mathcal{L}_{recon}$ 学习初始潜在表示。

第二阶段为微调阶段，模型联合局部结构学习模块和嵌入结构学习模块进行优化。整体目标函数为：

$\mathcal{L}_{fts} = \mathcal{L}_{ls} +\lambda \mathcal{L}_{es}$

其中， $\lambda$ 是用于平衡两个损失项的超参数。

在得到各视图的表示后，作者没有采用复杂的加权融合或特征拼接方式，而是直接使用平均融合得到最终统一表示，并将该表示输入到 K-means 中获得最终聚类结果。

小结

个人的一点看法：嵌入结构学习模块可以看作一种基于高斯扰动的跨视图一致性正则化。它通过在样本嵌入附近进行局部采样，并约束同一样本不同视图下的扰动表示保持一致，从而提升模型的稳定性和视图间一致性。不过，由于该模块采用固定各向同性高斯噪声，并没有显式学习复杂的数据分布结构，因此其“结构建模”能力相对有限，更像是对主干对比学习模块的补充增强。

论文阅读“Structure-guided Deep Multi-view Clustering”