论文阅读"COMPLETER: Incomplete Multi-view Clustering via Contrastive Prediction"

Lin Y, Gou Y, Liu Z, et al. COMPLETER: Incomplete multi-view clustering via contrastive prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 11174-11183.

摘要翻译

本文研究了不完整多视图聚类分析中两个具有挑战性的问题，即i)如何在没有标签的帮助下，如何在不同视图之间学习信息丰富和一致的表示 ii)如何从数据中恢复缺失的视图。为此，作者提出了一个新的目标，使用信息论的观点将表示学习和数据恢复整合到一个统一的框架中。具体地说，通过对比学习，最大化不同视图的互信息，来学习信息和一致的表示；通过对偶预测，最小化不同视图的条件熵来恢复缺失的视图。据我们所知，这可能是第一个提供一个统一的理论框架的一致性表示学习和跨视图数据恢复的工作。

Intro学习

作者针对不完整多视图学习中的两个典型问题，寻找到了不完全多视图聚类的数据恢复和一致性学习具有内在的联系，并将其优雅地统一到信息论的框架中。
提出的方法具有一种新的损失函数，利用对比损失和双预测损失实现了信息一致性和数据可恢复性。

模型浅析

总体模型图

在上述模型图中，双视图数据被用作示例。如图所示，该方法包含三个联合学习目标，即视图内重建、跨视图对比学习和跨视图dual预测。具体地说，视图内重建目标旨在将所有视图投影到特定的空间中，最小化视图内部的重建损失。通过最大化Z1和Z2之间的互信息，实现了跨视图对比学习目标---以获得视图间的一致性信息。跨视图dual预测目标利用两个映射G(1)和G(2)，通过最小化条件熵H(Zi|Zj)从另一个视图中恢复一个视图。下面从介绍总体的损失函数开始，逐一介绍各个子模块。

总体的损失函数

给定n个实例的不完整的多视图数据集 $\overline{X}=\{ \overline{X}^{1,2}, \overline{X}^{1}, \overline {X}^{2} \}$ ，其中 $\overline{X}^{1,2}, \overline{X}^{1}, \overline {X}^{2}$ 分别表示包含两个视图中的样本、仅仅包含第一个视图和仅仅包含第二个视图中的样本。包含全部视图表示的样本总数为m， $X^v$ 是视图 $v$ 的 $\overline{X}^{1,2}$ ，所以有 $\overline{X}^{1,2}=\{ X^1, X^2 \}$ 。

符号	说明
$L$	总体损失
$L_{cl}$	跨视图对比损失
$L_{pre}$	dual预测损失
$L_{rec}$	视图内重建损失
$\lambda_1$	$L_{pre}$ 的平衡因子
$\lambda_2$	$L_{rec}$ 的平衡因子

因此总体损失对应于模型的子模块，也分为如下三部分：

视图内重建

对于多视图数据的每个视图，作者将数据通过一个自动编码器，通过最小化重构损失来学习潜在的中间表示 $Z^v$ :

其中

X^v_t

表示

X^v

的第

t

个样本。

f(v)

和

g(v)

分别表示第

v

个视图的编码器和解码器。因此顺理成章有：

并且在视图内重构的结尾，作者写到：

It should be pointed out that the autoencoder structure is helpful to avoid the trivial solution.

跨(交叉)视图对比学习

为了学习一个在不同视图之间共享的视图表征，作者引入了对比学习。作者从信息论的观点出发，直接最大化了不同视图表示之间的互信息：

其中，

I

表示互信息，

H

为信息熵，参数

α

设为9，以便在实验中正则化熵。
对此，作者给出了如下的解释：
(1) 一方面，从信息论来看，信息熵是一个事件所传递的平均信息量。因此，一个更大的熵

H(Z^i)

表示一个信息更丰富的表示

Z^i

。
(2) 另一方面，

H(Z^1)

和

H(Z^2)

的最大化将避免了将所有样本分配给同一簇的平凡解。
而对于互信息部分，作者首先定义了变量z和z‘的联合概率分布P(z, z’)。由于softmax函数堆叠在编码器的最后一层，

Z^1

和

Z^2

的每个元素都可以看作是一个给定类簇的概率。换句话说，

Z^1

和

Z^2

可以理解为两个离散的类分配变量z和z‘在D个类上的分布，D是潜在变量

Z^1

和

Z^2

的维度。因此，P(z, z‘)被定义为

P∈R^{D×D}

设Pd和P‘d表示边际概率分布P(z=d)和P(z’=d‘)，它们可以通过对联合概率分布矩阵的第d行和第d列求和得到 P。为了表示z和z‘具有同等的重要性，P通过

(P+P^T)/2

进一步计算。

其中，

P_{dd'}

为

P

的第

d

行和第

d'

列处的元素，

α

为(4)中定义的熵的平衡参数。
这里挖个坑，(4)-(6)式的推导，以后在这里补上。。

跨(交叉)视图dual预测

具体地说，在一个由神经网络参数化的潜在空间中，另一个视图将通过最小化熵 $H(Z^i|Z^j)$ 来预测特定于视图的表示，其中i=1，j=2或i= 2, j = 1.

To learn consistent representations, it is encouraged to maximize I(Z1, Z2). In addition, minimizing the conditional entropy H(Zi|Zj ) (blue area) will encourage the recovery of missing view because Zi is fully determined by Zj if and only if the conditional entropy H(Zi|Zj) = 0, where i = 1, j = 2 or i = 2, j = 1. Subtly, on the one hand, the maximization of I(Z1, Z2) could increase the amount of the shared information, thus the data recoverability could be benefited, i.e., it is easier to recover one view from the other. On the other hand, as H(Zi|Zj) quantifies the amount of information of Zi conditioned on Zj, the minimization of H(Zi|Zj) will encourage to discard the inconsistent information across-views, and thus the consistency could be further improved. With the aboveobservation, cross-view consistency and data recovery are treated as two sides of one coin under the above unified information theory framework.
总得来说，最大化两个视图之间的互信息，和最小化两个视图之间的条件熵，会使得整个目标变的一致---学习一致的、共享的视图表示信息。

简而言之，当且仅当条件熵 $H(Z^i|Z^j)=-E_{P_{Z^i, Z^j}}[logP(Z^i|Z^j)]=0$ 时， $Z^i$ 完全由 $Z^j$ 来决定。为了解决这一目标，一种常见的近似方法是引入一个变分分布：