Zhu J, Zou X, Liu L, et al. Trusted Mamba Contrastive Network for Multi-View Clustering[C]//ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2025: 1-5.
论文链接:https://arxiv.org/pdf/2412.16487v2
摘要翻译
多视图聚类可以通过学习共识表示以无监督的方式将数据样本划分为它们的类别,近年来受到了越来越多的关注。然而,这些数据存在可信融合问题,原因如下:一是当前方法忽略了视图中存在的噪声或冗余信息;二是对比学习中的相似性来自同一样本而非同一簇,在深度多视图聚类中会导致多视图融合方向错误。作者提出了一种新的多视图聚类网络来解决这些问题,称为可信Mamba对比网络(Trusted Mamba Contrastive Network,TMCN)。具体来说,作者提出了一个新的可信曼巴融合网络(Trusted Mamba Fusion Network,TMFN),通过选择机制实现多视图数据的可信融合。此外,使用平均相似性对比学习(Average-similarity Contrastive Learning,AsCL)模块对融合表示和视图特定表示进行对齐。AsCL 增加了来自同一簇的视图表示的相似性,而不仅仅是来自同一样本的相似性。大量实验表明,所提出的方法在深度多视图聚类任务中取得了最先进的结果。
模型浅析
该框架的核心部分由可信Mamba融合网络(TMFN)和平均相似性对比学习(AsCL)组成。TMFN 将每个视图的一维特征向量分割为序列向量,然后通过Mamba网络的选择机制实现多视图特征的可信融合。AsCL 的引入旨在增强同一簇内视图表示的相似性,而不仅仅是关注单个样本层面的相似性。进一步提升多视图数据的可信融合效果。
数据定义
给定包含M个视图的N个数据样本,形式化为,其中
是视图
的特征维度。
多视图数据重构(基础部分)
使用自编码器提取各个视图的特征,自编码器包括编码器和解码器两部分。编码器用于生成低维嵌入;解码器用于根据数据表示重构样本。通过计算重构损失来优化自编码器,以更好地提取视图特定的特征表示。其损失函数为:无监督学习的基础操作,这里不再赘述。
可信Mamba融合网络(TMFN,核心部分)
该融合网络包含3个组件。
- 细粒度网络 :样本
将每个视图的一维特征向量转换为详细的序列向量,然后将各视图的序列向量拼接在一起形成全局序列向量。
- Mamba网络 :利用Mamba的选择机制进行多视图数据的可信融合。该网络包含两个不同的分支,通过多层感知机网络(MLP)对原始序列向量进行上采样
,
表示扩展系数。
然后利用选择机制对特征进行处理: -
转换网络 :将融合后的序列向量转换为一维特征向量。
平均相似性对比学习(AsCL,核心部分)
为了解决深度多视图聚类中对比学习的冲突问题,首先计算各个视图所有样本的相似性矩阵,然后对所有视图的相似性矩阵求平均,得到整体的相似性矩阵。从而增强来自同一簇的视图表示的相似性,促进可信融合。
总体损失
总体无监督学习的过程的损失为:聚类模块
使用 k-means 算法对所有样本进行聚类,通过对学习到的融合表示进行划分实现聚类目标。