Zhang C, Han Z, Fu H, et al. CPM-Nets: Cross partial multi-view networks[J]. Advances in Neural Information Processing Systems, 2019, 32.
摘要翻译
尽管多视图学习在过去几十年中取得了快速进展,但该任务仍具有一定的挑战性。这是由于很难对不同视图之间的复杂相关性进行建模,尤其是在视图缺失的情况下。为了应对这一挑战,作者提出了一个新的框架,称为跨部分多视图网络(CPM-Nets)。在这个框架中,首先给出了多视图表示的完整性和通用性的正式定义,然后从理论上证明了从提出的算法中学习到的潜在表示的通用性。为了达到完整性,学习潜在多视图表示的任务通过模仿数据传输专门转化为退化过程,从而可以实现不同视图之间的一致性和互补性之间的最佳权衡。该模型充分利用所有样本和所有视图来生成可解释性的结构化表示。
模型浅析
Multi-View Complete Representation
该部分的目标是设计一种灵活的算法,将具有任意视图缺失模式的样本投影到一个公共空间中。
定义:多视图表示的完整性。称是多视图完整的,如果样本
的每个可观察视图
都可以被对应的映射
重建,即
。
直观地说,可以以一种数值稳定的方式从一个完整的表示中重建每个视图。此外,作者证明了:每个视图对共享的多视图表示是有条件独立的。在作者的假设中,和完整可观测数据中,每个类别标签
都可以看作一个语义视图,因此,通过最大化
可以得到通用的多视图表示
。
基于
类似的,可以构建
假设数据是独立的和同分布的(IID),对数似然函数被归纳为
进行最小化,来惩罚类簇标签之间的不一致。
最小化上式,可以推导出完整的多视图表示。由于完整的表示编码来自不同视图的信息,因此与每个单一视图相比,它应该是通用的。
Classification on Structured Latent Representation
该部分的目标是确保学习的表示通过聚类损失的可分离性。可以通过最小化如下的分类损失:其中中,
是来自类簇标签
的隐含表示的集合,而
的输出为类簇标签中期望最大的类簇标签。
通过联合考虑分类和表示学习,错误分类损失如下:
综上,总体的目标函数概括为如下:
Test: Towards Consistency with Training Stage
为了弥补训练和测试阶段的gap,作者使用了类似于BERT的学习方式。采用了在训练网络上进行微调的方式,然后在此基础上来最小化目标
以获得与训练阶段一直的潜在表示
整体的算法如下:
这里很充分的在训练阶段使用了标签信息,并且从3个角度对分类任务的挑战进行了分析解释。考虑如何怎么将类别标签信息进行模糊化,从而转化到聚类任务上。。。