论文阅读“CPM-Nets: Cross Partial Multi-View Networks”

Zhang C, Han Z, Fu H, et al. CPM-Nets: Cross partial multi-view networks[J]. Advances in Neural Information Processing Systems, 2019, 32.

摘要翻译

尽管多视图学习在过去几十年中取得了快速进展,但该任务仍具有一定的挑战性。这是由于很难对不同视图之间的复杂相关性进行建模,尤其是在视图缺失的情况下。为了应对这一挑战,作者提出了一个新的框架,称为跨部分多视图网络(CPM-Nets)。在这个框架中,首先给出了多视图表示的完整性和通用性的正式定义,然后从理论上证明了从提出的算法中学习到的潜在表示的通用性。为了达到完整性,学习潜在多视图表示的任务通过模仿数据传输专门转化为退化过程,从而可以实现不同视图之间的一致性和互补性之间的最佳权衡。该模型充分利用所有样本和所有视图来生成可解释性的结构化表示。

模型浅析

相关定义:
Multi-View Complete Representation

该部分的目标是设计一种灵活的算法,将具有任意视图缺失模式的样本投影到一个公共空间中。
定义:多视图表示的完整性。称h是多视图完整的,如果样本x的每个可观察视图x^{(v)}都可以被对应的映射f_v(\cdot)重建,即x^{(v)}=f_v(h)

直观地说,可以以一种数值稳定的方式从一个完整的表示中重建每个视图。此外,作者证明了:每个视图对共享的多视图表示是有条件独立的。在作者的假设中,和完整可观测数据X中,每个类别标签y都可以看作一个语义视图,因此,通过最大化p(y,S|h)可以得到通用的多视图表示h


基于S包含的不同视图,将给定观测S对于h的似然建模为
其中\Theta_r控制由公共多视图表示h为参数的重建映射函数f(\cdot),因此,关于部分可观测的变量S而言,其重建损失可以表示为

类似的,可以构建h关于每个类簇标签y的似然建模为:

假设数据是独立的和同分布的(IID),对数似然函数被归纳为
其中,S_n表示第n个样本中的所有可用视图。一方面来说,我们将来自可用视图的信息编码为一个隐含表示h_n,将编码损失记录为

另一方面,学习到的表示应该和类簇分布是一致的,这里通过对损失

进行最小化,来惩罚类簇标签之间的不一致。

有效地编码来自不同视图的信息是多视图表示的关键要求,因此这里通过引入可以恢复部分(可用)观测来学习多视图之间的公共表示,具体损失如下:

最小化上式,可以推导出完整的多视图表示。由于完整的表示编码来自不同视图的信息,因此与每个单一视图相比,它应该是通用的。

由此,作者又给出了关于多视图表示通用性的定义及相关的证明
Classification on Structured Latent Representation

该部分的目标是确保学习的表示通过聚类损失的可分离性。可以通过最小化如下的分类损失:

其中g(h_n,\Theta_c)=argmax_{y \in Y}E_{h \sim T(y)}h^Th_n中,T(y)是来自类簇标签y的隐含表示的集合,而g(\cdot)的输出为类簇标签中期望最大的类簇标签。
通过联合考虑分类和表示学习,错误分类损失如下:

与大多数使用的具有交叉熵损失的参数分类相比,聚类损失不仅惩罚了错误分类,而且确保了结构化表示。对于正确分类的样本,即y=y_n,则没有损失。对于分类错误的样本,即y \neq y_n,该损失将强制h_ny_n对应的中心之间的相似性大于h_ny(错误标签)对应的中心之间的相似性,其间隔为∆(y_n,y)。因此,所提出的非参数损失自然导致了具有聚类结构的表示。
综上,总体的目标函数概括为如下:

Test: Towards Consistency with Training Stage

为了弥补训练和测试阶段的gap,作者使用了类似于BERT的学习方式。采用了在训练网络上进行微调的方式,然后在此基础上来最小化目标


以获得与训练阶段一直的潜在表示h
整体的算法如下:


这里很充分的在训练阶段使用了标签信息,并且从3个角度对分类任务的挑战进行了分析解释。考虑如何怎么将类别标签信息进行模糊化,从而转化到聚类任务上。。。


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容