论文阅读“MORI-RAN: Multi-view Robust Representation Learning via Hybrid Contrastive Fusion”

Ke, Guanzhou et al. “MORI-RAN: Multi-view Robust Representation Learning via Hybrid Contrastive Fusion.” 2022 IEEE International Conference on Data Mining Workshops (ICDMW) (2022): 467-474.

摘要导读

对于多视图聚类和分类任务而言，其表示学习是非常关键的。然而，这里始终有两个较为困扰的问题：i) 如何从大量的无标签样本中学到鲁棒的多视图表示，ii) 如何做好视图一致性和特有性的平衡。为此，本文提出了一个混合对比融合方法用于从无标签样本中抽取鲁棒的视图共享表示。具体来说，作者发现引入一个额外的表示空间并且在这个空间中对齐表示使得模型可以学习到视图共享表示。同时，为保证模型的坍塌，还设计了一个非对称的对比策略避免获得平凡解。通过对比实验证明了模型的有效性。

Intro梳理

在Intro中主要是现有融合方法进行了分类梳理，将其分为如下两类：

并指出(a)中使用的融合方式输出的用于下游任务表示的维度总是和视图的数量成线性增长；而在(b)中的方式则可以输出任意维度的表示，容易满足不同下游任务的需要。

模型浅析

数据定义及目标：

A. 模型结构

对应于每一个视图的view-specific encoder networks，用于学习每个视图的表示 $h^v=e_v(x^v)$ 。这里可以选取不同的网络结构，文中用了FCNs。
视图融合块fusion-block，用于将拼接的视图表示通过非线性映射到视图共享表示 $z=f(\overline{h})$ ，并且使用跳跃连接实现输入和输出的连接。
混合对比模块 hybrid contrastive module，该模块以 $z$ 和 $\overline{h}$ 作为输入，利用实例间对比最大化 $z$ 和 $\overline{h}$ 的互信息，同时使用类簇间对比减少视图冗余表示。

B. 混合对比模块的设计及其损失

在该模块中包含了实例级对比（引入非对称对比策略）和类簇级对比两个方法。
对应于两个对比存在两个不同的损失，总体损失如下：

a. 实例级对比损失：作者将redundancy-reduction principle扩展到多视图领域中。首先定义了多视图互相关矩阵：

$\mathcal{C}$ 是一个与网络输出的维数大小相同的方阵，其值的范围为[−1,1]。根据非对称对比策略，在计算中固定了视图公共表示 $z$ ，然后计算 $z$ 与每个视图特定表示 $h^v$ 之间的互相关。最后，实例级的对比损失可以写成如下的形式：

b. 类簇级对比损失：要求视图公共表示 $z$ 和视图特定表示 $h^v$ 在软标签分配方面是一致的：

其中 $k$ 是预先给定的类簇的个数， $P(\cdot, \cdot)$ 定义为如下：

$g(\cdot)$ 是软标签分配网络（MLP），输出 $k$ 维向量。
$Q_{(k)}(z)$ 则是 $z$ 的最佳软分配，由如下方式计算：

$\textbf{T}$ 是一个转换矩阵， $\textbf{1}$ 是单位矩阵。通过四舍五入的过程可以得到一个离散的最优解 $\textbf{T}^*$ 。构造最终的类簇级别的对比损失。