Ke G, Hong Z, Zeng Z, et al. CONAN: Contrastive Fusion Networks for Multi-view Clustering[C]//2021 IEEE International Conference on Big Data (Big Data). IEEE, 2021: 653-660.
摘要翻译
随着大数据的发展,深度学习在多视图聚类上取得了显著进展。多视图融合是模型获得共同表示的关键技术。然而,现有文献采用浅层融合策略,如加权和融合和拼接融合,无法从多个视角捕捉复杂信息。在本文中,作者提出了一种新的融合技术--对比融合,它可以从多个视图中提取一致的表示,并保持特定视图表示的特征。具体来说,模型从信息瓶颈的角度研究多视图对齐,并引入一个中间变量来对齐每个特定于视图的表示。此外,在实验部分利用单视图聚类方法作为预测任务,以确保对比融合工作的有效性。作者将所有组件集成到一个统一的框架中,称为对比融合网络(CONAN)。实验结果表明,提出的CONAN在多视图聚类任务上效果显著。
the major challenge in multi-view clustering:> can we extract harmonious common representations from each view under maintaining the view-specific representations?
模型浅析
-
数据定义
- 模型网络结构
CONAN主要包含四个子部件。- 首先是每个视图特定的编码网络。该模块主要用于从每个视图中提取视图特定的表示,。
- 融合网络。主要用于将拼接后的各视图表示进行公共表示的学习。这里采用的是中间层用ReLU激活的两层的全连接层做融合。作者表示这种方法比加权求和的方法更加适用于各种复杂形式的表示。
- 投影模块。它主要应用对比损失来学习映射表示。
- 聚类模块。将前序模块学习到的公共表示用于聚类分配。即通过。这部分可以采用任何单视图聚类算法,如DDC和DEC等。
- 对比融合
其目标是提取视图特定表示 之间共享的任务相关信息(一致性)并丢弃与任务无关的信息。根据该目标,作者从信息瓶颈的角度给出如下定义:
通过同时最大化上述(1)(2)两式,来学习任务相关的信息表示,但是这两个式子并不能直接进行最大化。因此,作者采用了最小化上图红框中的式子以达到最大化和互信息下界的目的。
根据上述理论,作者引入了多视图公共表示,同时最大化和 。因此,原有的定义可以重新写成:
在模型中,作者将最大化和的过程称为对比融合。关于和每个的对比学习形式化为如下:
推广到多视图数据中,整体的目标可以写成最小化 - 总损失函数
总体来说模型写的简单且具体,但是在Loss Function的部分,作者貌似想要将下游任务进行一般化表示,写的比较模糊,对于数据和任务之间的Gap则是选择用聚类的方式进行补充。这种写法在之后的论文中可以借鉴,将其表示为任务指导的学习。