论文阅读"CONAN: Contrastive Fusion Networks for Multi-view Clustering"

Ke G, Hong Z, Zeng Z, et al. CONAN: Contrastive Fusion Networks for Multi-view Clustering[C]//2021 IEEE International Conference on Big Data (Big Data). IEEE, 2021: 653-660.

摘要翻译

随着大数据的发展，深度学习在多视图聚类上取得了显著进展。多视图融合是模型获得共同表示的关键技术。然而，现有文献采用浅层融合策略，如加权和融合和拼接融合，无法从多个视角捕捉复杂信息。在本文中，作者提出了一种新的融合技术--对比融合，它可以从多个视图中提取一致的表示，并保持特定视图表示的特征。具体来说，模型从信息瓶颈的角度研究多视图对齐，并引入一个中间变量来对齐每个特定于视图的表示。此外，在实验部分利用单视图聚类方法作为预测任务，以确保对比融合工作的有效性。作者将所有组件集成到一个统一的框架中，称为对比融合网络(CONAN)。实验结果表明，提出的CONAN在多视图聚类任务上效果显著。

the major challenge in multi-view clustering：> can we extract harmonious common representations from each view under maintaining the view-specific representations?

模型浅析

CONAN

数据定义
模型网络结构
CONAN主要包含四个子部件。
1. 首先是每个视图特定的编码网络 $e_v(\cdot)$ 。该模块主要用于从每个视图中提取视图特定的表示 $h$ ， $h^v=e_v(X_v)$ 。
2. 融合网络 $f(\cdot)$ 。主要用于将拼接后的各视图表示进行公共表示的学习 $z=f(\tilde{h}),\tilde{h}=cat(h^1, h^2, ..., h^V)$ 。这里采用的是中间层用ReLU激活的两层的全连接层做融合。作者表示这种方法比加权求和的方法更加适用于各种复杂形式的表示。
3. 投影模块 $p(\cdot)$ 。它主要应用对比损失来学习映射表示。
4. 聚类模块 $g(\cdot)$ 。将前序模块学习到的公共表示 $z$ 用于聚类分配。即通过 $Y=g(z)$ 。这部分可以采用任何单视图聚类算法，如DDC和DEC等。
对比融合
其目标是提取视图特定表示 $h$ 之间共享的任务相关信息（一致性）并丢弃与任务无关的信息。根据该目标，作者从信息瓶颈的角度给出如下定义：

通过同时最大化上述(1)(2)两式，来学习任务相关的信息表示，但是这两个式子并不能直接进行最大化。因此，作者采用了最小化上图红框中的式子以达到最大化 $I(X^1; h^2)$ 和 $I(X^2; h^1)$ 互信息下界的目的。
根据上述理论，作者引入了多视图公共表示 $z$ ，同时最大化 $I(z; h^1)$ 和 $I(z; h^2)$ 。因此，原有的定义可以重新写成：

在模型中，作者将最大化 $I(z; h^1)$ 和 $I(z; h^2)$ 的过程称为对比融合。关于 $z$ 和每个 $h$ 的对比学习形式化为如下：

分子部分为正例对，分母为其余的负例对。
推广到多视图数据中，整体的目标可以写成最小化
总损失函数