Cross-modal Hallucination for Few-shot Fine-grained Recognition

Cross-modal Hallucination for Few-shot Fine-grained Recognition

最先进的深度学习算法需要大量的数据用于模型训练,缺乏会导致性能恶化,尤其是在不同类别之间具有细粒度的边界的时候。

Introduction

方法背后的直觉是生成额外训练的样本,这些样本适用于文本描述,有助于在低数据场景中学习分类模型。

贡献有:

  1. 根据细粒度视觉识别任务提出多模态Few-shot学习的基准,该任务在训练阶段是多模态的,测试时是单模态的(图像)。
  2. 开发了类别判断的文本条件生成对抗网络(tcGAN),通过在细粒度文本描述的条件下隐藏额外的图像来促进Few-shot学习。
idea

从数据集中学习分类器,每个类别的几个样本通过以文本描述为条件的幻觉数据进行扩展。

Multimodal Few-shot Learning Benchmark

目标是建立多模态Few-shot细粒度识别的基准模仿实践中出现的情况。受Low-shot Visual Recognitionby Shrinking and Hallucinating Features. 启发,提出Few-shot学习基准并将其扩展为使用多模态训练数据。建立由多个阶段组成的Few-shot学习框架。第一阶段在大型训练集上进行学习得到一些有意义的表示,下一阶段在少量样本上进行微调。

Method

[图片上传失败...(image-6401df-1547150302469)]

总体框架分为两个阶段,

  1. 表示学习,训练text-conditional GAN给定文本描述生成hallucinate图像。
  2. 微调阶段,通过样本选择策略从生成的图像中选择最具有辨别力的部分。

Discriminative Text-Conditional GAN

遵循元学习框架,在\mathcal { C } _{ \text { base } }(非小样本基础类数据)上大量数据中学习生成模型。然后在\mathcal{C}_{novel}(新的细粒度类)上学习与之相关的分类器。构造一个text-conditional GAN用于学习从文本到图像的映射。这样生成器G被训练,从而生成不能被判别器判断出真假的图像。

tcGAN的目标函数:

\begin{aligned} \mathcal { L } _ { t c G A N } ( G , D ) = \mathbb { E } _ { I , T } & [ \log D ( I , T ) ] \\ & + \mathbb { E } _ { I , z } [ \log D ( I , G ( T , z ) ) ] \end{aligned}

其中的z是随机噪声向量,TI是观察文本和图像的embeddings。

单独优化\mathcal { L } _ { t c G A N }缺少类间的区分度,向\mathcal { L } _ { t c G A N }中增加一个class-discriminative项\mathcal { L } _ { \text { class } },被定义为:

\mathcal { L } _ { \text {class} } ( D ) = \mathbb { E } [ P ( C = c | I ) ]

c是类标签。另外,令:

\mathcal { L } _ { c l a s s } ( D ) = \mathcal { L } _ { c l a s s } ( G )

引出两个损失项:

\mathcal { L } ( D ) = \mathcal { L } _ { t c G A N } ( G , D ) + \mathcal { L } _ { \text {class} } ( D )

\mathcal { L } ( G ) = \mathcal { L } _ { t c G A N } ( G ) - \mathcal { L } _ { c l a s s } ( G )

通过优化得到D^*G^*

Self-paced Sample Selection

通过训练G*能够生成足够多的样本,我们需要从生成的样本库中挑选足够的样本,以便于细粒度Few-shot能够构建更好的分类器。选择生成器和鉴别器最有信心的样本。就是使用鉴别器D计算的分数并对分数进行排序,得到最好的样本(如上图所示)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容