论文阅读“Trusted Mamba Contrastive Network for Multi-View Clustering”

Zhu J, Zou X, Liu L, et al. Trusted Mamba Contrastive Network for Multi-View Clustering[C]//ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2025: 1-5.

论文链接：https://arxiv.org/pdf/2412.16487v2

摘要翻译

多视图聚类可以通过学习共识表示以无监督的方式将数据样本划分为它们的类别，近年来受到了越来越多的关注。然而，这些数据存在可信融合问题，原因如下：一是当前方法忽略了视图中存在的噪声或冗余信息；二是对比学习中的相似性来自同一样本而非同一簇，在深度多视图聚类中会导致多视图融合方向错误。作者提出了一种新的多视图聚类网络来解决这些问题，称为可信Mamba对比网络（Trusted Mamba Contrastive Network，TMCN）。具体来说，作者提出了一个新的可信曼巴融合网络（Trusted Mamba Fusion Network，TMFN），通过选择机制实现多视图数据的可信融合。此外，使用平均相似性对比学习（Average-similarity Contrastive Learning，AsCL）模块对融合表示和视图特定表示进行对齐。AsCL 增加了来自同一簇的视图表示的相似性，而不仅仅是来自同一样本的相似性。大量实验表明，所提出的方法在深度多视图聚类任务中取得了最先进的结果。

模型浅析

TMCN模型框架

该框架的核心部分由可信Mamba融合网络（TMFN）和平均相似性对比学习（AsCL）组成。TMFN 将每个视图的一维特征向量分割为序列向量，然后通过Mamba网络的选择机制实现多视图特征的可信融合。AsCL 的引入旨在增强同一簇内视图表示的相似性，而不仅仅是关注单个样本层面的相似性。进一步提升多视图数据的可信融合效果。

数据定义

给定包含M个视图的N个数据样本，形式化为 $\{{\bf{X}}^m=\{x^m_1;x^m_2;\cdots;x^m_N\}\in \mathbb{R}^{N \times D_m}\}$ ，其中 $D_m$ 是视图 $m$ 的特征维度。

多视图数据重构（基础部分）

使用自编码器提取各个视图的特征，自编码器包括编码器和解码器两部分。编码器用于生成低维嵌入；解码器用于根据数据表示重构样本。通过计算重构损失来优化自编码器，以更好地提取视图特定的特征表示。其损失函数为：

无监督学习的基础操作，这里不再赘述。

可信Mamba融合网络（TMFN，核心部分）

该融合网络包含3个组件。

细粒度网络：样本 $x_i$ 将每个视图的一维特征向量转换为详细的序列向量，然后将各视图的序列向量拼接在一起形成全局序列向量。
Mamba网络：利用Mamba的选择机制进行多视图数据的可信融合。该网络包含两个不同的分支，通过多层感知机网络（MLP）对原始序列向量进行上采样

其中， $d'=d \times \alpha$ ， $\alpha$ 表示扩展系数。

其中，rea 是序列的细粒度分割操作；conv1d是一维卷积神经网络。
然后利用选择机制对特征进行处理：

然后使用门控机制对冗余特征进行过滤，并进行降维：
转换网络：将融合后的序列向量转换为一维特征向量。