多模态学习的核心问题之一是如何有效联系视觉与语义信息。在人工智能和深度学习的大潮下,学术界、工业界的研究日新月异。人们被淹没于各种Fancy的网络结构之下,多少有些忽略了意图解决的问题本身,以及研究的Motivation从何而来。其实,许多问题的由来和研究的动机在早些时候的经典论文中已有提及。
今天,我们回顾多模态学习领域的经典论文——What Helps Where – And Why? Semantic Relatedness for Knowledge Transfer. 该论文由马普所Bernt Schiele 研究组发表于2010年的CVPR。论文以零样本学习为例,在AWA数据集上探讨了语义与视觉两个Modality究竟借助怎样的知识库(Knowledge Base)才能更好地实现知识迁移(Knowledge transfer),并将知识迁移到新任务(本文为Zero-shot Recognition)上。
本文主要讲述的是思想。
知识迁移依靠Attribute(属性)(颜色、形状、大小等)在较抽象的层面上描述物体(类似深度网络中的高层特征)。Attribute描述的是:某物具有某特性。Attribute和类别的关系如下图所示:
与CNN的高层特征不同,Attribute完全是人工定义,人工标注的。它的优点是1.具有较好的表达能力。直接使用Attribute当做图像特征也能取得超过低级特征的分类效果;2.具有明确的物理意义,便于和自然语言相对应。
Attribute也有许多不足,这些不足主要是人工标注导致的:
1.人工选取的Attribute是单词,断章取义,不能很好描述客观世界。
2.人工标注过程是不可靠的。
3.数据集需要进行图像级别的标注,因此人工标注费时费力。
4.对于训练集中未出现的Unseen类别,需要人工做类别级别的标注。
因此,本文关注:怎样减少Attribute的选取和标注这一过程中的人工。具体来说,其工作包括:
1.沿用人工选取的Attribute集合,自动为各类别的Attribute赋值。
2.自动选取Attribute集合,自动为各类别的Attribute赋值。
3.将Seen类别(训练阶段看到的类别)的label当做Attribute,用相似度来度量为各类别的Attribute赋值。
4.直接用Seen类别作为预测依据,不再需要Attribute。(和3的区别见下图)
5.考察在1.2.3.的设定下,使用不同的知识库(WordNet、Wiki、搜索引擎、大规模图像搜索引擎、小规模图像搜索引擎)来为Attribute赋值的性能。
如何自动选取Attribute集合,本文讲得很模糊,在3.2节的Mining attributes第二段中说到:使用了WordNet的整体-局部关系来提取了所有类别中关心的Parts作为属性。
如何为Attribute赋值,取决于使用怎样的知识库,其思想是,借助知识库来寻找Unseen label和Attribute两个单词之间的相似性。其具体内容参照论文本身,此处不再赘述。
其实验对比如下表所述:
虽然实验结果离当下(2018)的State-of-the-art差别甚远,但是,许多state-of-the-art的方法利用了Image-level的Attribute,或利用了Unseen data的信息。这和Zero-shot的思想:减少监督 是背道而驰的。本文探讨了一些可能的改进方向,例如:引入/融合不同知识库;直接使用类别作为预测依据跳过了属性,避免了属性当中包含的噪声。其中各有优劣