Lin Y, Gou Y, Liu Z, et al. COMPLETER: Incomplete multi-view clustering via contrastive prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 11174-11183.
摘要翻译
本文研究了不完整多视图聚类分析中两个具有挑战性的问题,即i)如何在没有标签的帮助下,如何在不同视图之间学习信息丰富和一致的表示 ii)如何从数据中恢复缺失的视图。为此,作者提出了一个新的目标,使用信息论的观点将表示学习和数据恢复整合到一个统一的框架中。具体地说,通过对比学习,最大化不同视图的互信息,来学习信息和一致的表示;通过对偶预测,最小化不同视图的条件熵来恢复缺失的视图。据我们所知,这可能是第一个提供一个统一的理论框架的一致性表示学习和跨视图数据恢复的工作。
Intro学习
- 作者针对不完整多视图学习中的两个典型问题,寻找到了不完全多视图聚类的数据恢复和一致性学习具有内在的联系,并将其优雅地统一到信息论的框架中。
- 提出的方法具有一种新的损失函数,利用对比损失和双预测损失实现了信息一致性和数据可恢复性。
模型浅析
在上述模型图中,双视图数据被用作示例。如图所示,该方法包含三个联合学习目标,即视图内重建、跨视图对比学习和跨视图dual预测。具体地说,视图内重建目标旨在将所有视图投影到特定的空间中,最小化视图内部的重建损失。通过最大化Z1和Z2之间的互信息,实现了跨视图对比学习目标---以获得视图间的一致性信息。跨视图dual预测目标利用两个映射G(1)和G(2),通过最小化条件熵H(Zi|Zj)从另一个视图中恢复一个视图。下面从介绍总体的损失函数开始,逐一介绍各个子模块。
总体的损失函数
给定n个实例的不完整的多视图数据集,其中分别表示包含两个视图中的样本、仅仅包含第一个视图和仅仅包含第二个视图中的样本。包含全部视图表示的样本总数为m,是视图的,所以有。
符号 | 说明 |
---|---|
总体损失 | |
跨视图对比损失 | |
dual预测损失 | |
视图内重建损失 | |
的平衡因子 | |
的平衡因子 |
视图内重建
对于多视图数据的每个视图,作者将数据通过一个自动编码器,通过最小化重构损失来学习潜在的中间表示:
其中表示的第个样本。和分别表示第个视图的编码器和解码器。因此顺理成章有:
并且在视图内重构的结尾,作者写到:
It should be pointed out that the autoencoder structure is helpful to avoid the trivial solution.
跨(交叉)视图对比学习
为了学习一个在不同视图之间共享的视图表征,作者引入了对比学习。作者从信息论的观点出发,直接最大化了不同视图表示之间的互信息:
对此,作者给出了如下的解释:
(1) 一方面,从信息论来看,信息熵是一个事件所传递的平均信息量。因此,一个更大的熵表示一个信息更丰富的表示。
(2) 另一方面,和的最大化将避免了将所有样本分配给同一簇的平凡解。
而对于互信息部分,作者首先定义了变量z和z‘的联合概率分布P(z, z’)。由于softmax函数堆叠在编码器的最后一层,和的每个元素都可以看作是一个给定类簇的概率。换句话说,和可以理解为两个离散的类分配变量z和z‘在D个类上的分布,D是潜在变量和的维度。因此,P(z, z‘)被定义为:
设Pd和P‘d表示边际概率分布P(z=d)和P(z’=d‘),它们可以通过对联合概率分布矩阵的第d行和第d列求和得到 P。为了表示z和z‘具有同等的重要性,P通过进一步计算。
这里挖个坑,(4)-(6)式的推导,以后在这里补上。。
跨(交叉)视图dual预测
具体地说,在一个由神经网络参数化的潜在空间中,另一个视图将通过最小化熵来预测特定于视图的表示,其中i=1,j=2或i= 2, j = 1.
To learn consistent representations, it is encouraged to maximize I(Z1, Z2). In addition, minimizing the conditional entropy H(Zi|Zj ) (blue area) will encourage the recovery of missing view because Zi is fully determined by Zj if and only if the conditional entropy H(Zi|Zj) = 0, where i = 1, j = 2 or i = 2, j = 1. Subtly, on the one hand, the maximization of I(Z1, Z2) could increase the amount of the shared information, thus the data recoverability could be benefited, i.e., it is easier to recover one view from the other. On the other hand, as H(Zi|Zj) quantifies the amount of information of Zi conditioned on Zj, the minimization of H(Zi|Zj) will encourage to discard the inconsistent information across-views, and thus the consistency could be further improved. With the aboveobservation, cross-view consistency and data recovery are treated as two sides of one coin under the above unified information theory framework.
总得来说,最大化两个视图之间的互信息,和最小化两个视图之间的条件熵,会使得整个目标变的一致---学习一致的、共享的视图表示信息。
简而言之,当且仅当条件熵时,完全由来决定。为了解决这一目标,一种常见的近似方法是引入一个变分分布:
在实验中,作者选用了高斯分布作为变分分布,
通过忽略由高斯分布得到的常数,一定程度上,最大化
给定一个双视图数据集,可写成:
note: 需要指出的是,如果上述损失不和视图内重构损失一起使用,可能导致和等于相同的常数,而整个模型失效。
模型收敛后,通过上述dual映射,很容易预测中缺失的表示。
在预测出完整的多视图表示后,作者将来自特定视图的表示拼接到一起,使用传统的k-means得到聚类结果。
在整体的模型中,将学习视图间的一致性表示和不完整视图的重建统一到一个框架中,并使用各视图的重建损失约束视图的不全过程,不至于算法失效。多视图表示的结合没有进行拓展,聚类阶段只使用了简单的k-means。
整体思路值得学习。在多源任务上的思考,因为没有交织视图的引导,对多源任务不太友好。