论文阅读“Trusted Mamba Contrastive Network for Multi-View Clustering”

Zhu J, Zou X, Liu L, et al. Trusted Mamba Contrastive Network for Multi-View Clustering[C]//ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2025: 1-5.

论文链接:https://arxiv.org/pdf/2412.16487v2

摘要翻译

多视图聚类可以通过学习共识表示以无监督的方式将数据样本划分为它们的类别,近年来受到了越来越多的关注。然而,这些数据存在可信融合问题,原因如下:一是当前方法忽略了视图中存在的噪声或冗余信息;二是对比学习中的相似性来自同一样本而非同一簇,在深度多视图聚类中会导致多视图融合方向错误。作者提出了一种新的多视图聚类网络来解决这些问题,称为可信Mamba对比网络(Trusted Mamba Contrastive Network,TMCN)。具体来说,作者提出了一个新的可信曼巴融合网络(Trusted Mamba Fusion Network,TMFN),通过选择机制实现多视图数据的可信融合。此外,使用平均相似性对比学习(Average-similarity Contrastive Learning,AsCL)模块对融合表示和视图特定表示进行对齐。AsCL 增加了来自同一簇的视图表示的相似性,而不仅仅是来自同一样本的相似性。大量实验表明,所提出的方法在深度多视图聚类任务中取得了最先进的结果。

模型浅析
TMCN模型框架

该框架的核心部分由可信Mamba融合网络(TMFN)和平均相似性对比学习(AsCL)组成。TMFN 将每个视图的一维特征向量分割为序列向量,然后通过Mamba网络的选择机制实现多视图特征的可信融合。AsCL 的引入旨在增强同一簇内视图表示的相似性,而不仅仅是关注单个样本层面的相似性。进一步提升多视图数据的可信融合效果。

数据定义

给定包含M个视图的N个数据样本,形式化为\{{\bf{X}}^m=\{x^m_1;x^m_2;\cdots;x^m_N\}\in \mathbb{R}^{N \times D_m}\},其中D_m是视图m的特征维度。

多视图数据重构(基础部分)

使用自编码器提取各个视图的特征,自编码器包括编码器和解码器两部分。编码器用于生成低维嵌入;解码器用于根据数据表示重构样本。通过计算重构损失来优化自编码器,以更好地提取视图特定的特征表示。其损失函数为:

无监督学习的基础操作,这里不再赘述。

可信Mamba融合网络(TMFN,核心部分)

该融合网络包含3个组件。

  • 细粒度网络 :样本x_i将每个视图的一维特征向量转换为详细的序列向量,然后将各视图的序列向量拼接在一起形成全局序列向量。
  • Mamba网络 :利用Mamba的选择机制进行多视图数据的可信融合。该网络包含两个不同的分支,通过多层感知机网络(MLP)对原始序列向量进行上采样
    其中,d'=d \times \alpha\alpha表示扩展系数。
    其中,rea 是序列的细粒度分割操作;conv1d是一维卷积神经网络。
    然后利用选择机制对特征进行处理:
    然后使用门控机制对冗余特征进行过滤,并进行降维:
  • 转换网络 :将融合后的序列向量转换为一维特征向量。
平均相似性对比学习(AsCL,核心部分)

为了解决深度多视图聚类中对比学习的冲突问题,首先计算各个视图所有样本的相似性矩阵,然后对所有视图的相似性矩阵求平均,得到整体的相似性矩阵。

接着对每个视图特征和融合特征进行维度统一:
并计算融合表示与视图特定表示之间的余弦相似度,以此构建对比学习的损失函数:

从而增强来自同一簇的视图表示的相似性,促进可信融合。

总体损失

总体无监督学习的过程的损失为:
聚类模块

使用 k-means 算法对所有样本进行聚类,通过对学习到的融合表示进行划分实现聚类目标。

总结

提出的 TMCN 框架通过 TMFN 模块利用Mamba的选择机制实现多视图数据的可信融合,并通过 AsCL 模块增强同一簇内视图表示的相似性,从而有效解决了多视图聚类中的可信融合问题。这说明笔者还是需要加强对其他领域知识的学习。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容