Cross-modal Hallucination for Few-shot Fine-grained Recognition
最先进的深度学习算法需要大量的数据用于模型训练,缺乏会导致性能恶化,尤其是在不同类别之间具有细粒度的边界的时候。
Introduction
方法背后的直觉是生成额外训练的样本,这些样本适用于文本描述,有助于在低数据场景中学习分类模型。
贡献有:
- 根据细粒度视觉识别任务提出多模态Few-shot学习的基准,该任务在训练阶段是多模态的,测试时是单模态的(图像)。
- 开发了类别判断的文本条件生成对抗网络(tcGAN),通过在细粒度文本描述的条件下隐藏额外的图像来促进Few-shot学习。
从数据集中学习分类器,每个类别的几个样本通过以文本描述为条件的幻觉数据进行扩展。
Multimodal Few-shot Learning Benchmark
目标是建立多模态Few-shot细粒度识别的基准模仿实践中出现的情况。受Low-shot Visual Recognitionby Shrinking and Hallucinating Features. 启发,提出Few-shot学习基准并将其扩展为使用多模态训练数据。建立由多个阶段组成的Few-shot学习框架。第一阶段在大型训练集上进行学习得到一些有意义的表示,下一阶段在少量样本上进行微调。
Method
[图片上传失败...(image-6401df-1547150302469)]
总体框架分为两个阶段,
- 表示学习,训练text-conditional GAN给定文本描述生成hallucinate图像。
- 微调阶段,通过样本选择策略从生成的图像中选择最具有辨别力的部分。
Discriminative Text-Conditional GAN
遵循元学习框架,在(非小样本基础类数据)上大量数据中学习生成模型。然后在(新的细粒度类)上学习与之相关的分类器。构造一个text-conditional GAN用于学习从文本到图像的映射。这样生成器G被训练,从而生成不能被判别器判断出真假的图像。
tcGAN的目标函数:
其中的是随机噪声向量,和是观察文本和图像的embeddings。
单独优化缺少类间的区分度,向中增加一个class-discriminative项,被定义为:
是类标签。另外,令:
引出两个损失项:
通过优化得到和。
Self-paced Sample Selection
通过训练能够生成足够多的样本,我们需要从生成的样本库中挑选足够的样本,以便于细粒度Few-shot能够构建更好的分类器。选择生成器和鉴别器最有信心的样本。就是使用鉴别器计算的分数并对分数进行排序,得到最好的样本(如上图所示)。