论文:https://openreview.net/pdf?id=S1eL4kBYwr
代码:https://github.com/ChenRocks/UNITER
摘要
联合图像文本嵌入是大多数视觉和语言 (V+L) 任务的基石,其中多模态输入被联合处理以进行视觉和文本理解。在本文中,作者介绍了 UNITER,一种通用图像文本表示(UNiversal Image-TExt Representation),通过对四个图像文本数据集(COCO、Visual Genome、Conceptual Captions 和 SBU Captions)的大规模预训练学习,它可以为异构下游 V +L 任务与联合多模态嵌入提供助力。作者设计了三个预训练任务:掩码语言建模 (Masked Language Modelin,MLM)、图像文本匹配 (Image-Text Matching,ITM) 和掩码区域建模 (Masked Region Modeling, MRM)。不同于在多模态预训练的并发工作-将联合随机掩码应用于两种模态的训练,作者在预训练任务上使用了条件掩码。综合分析表明,条件掩码比非条件掩码产生更好的性能。作者还进行了彻底的研究,以找到组合预训练任务的最佳设置。 大量实验表明,UNITER 在六个 V+L 任务(超过九个数据集)中达到了新的最先进水平,包括视觉问答、 图像文本检索、引用表达理解、视觉常识推理、视觉蕴含和 NLVR。
- 介绍
大多数视觉和语言任务依赖于联合多模型嵌入来弥合图像和文本中视觉和文本线索之间的语义差距,尽管这种表示通常是为特定任务量身定制的。例如,MCB 、BAN 、DFAF 等提出了用于视觉问答 (VQA)的高级多模态融合方法。 SCAN 和 MAttNet 研究了图像文本检索和参考表达理解任务中,单词和图像区域之间的潜在对齐。虽然这些提出的模型中的每一个都在各自的基准上推动了最先进的技术,但它们的体系结构是多样化的,并且学习到的表示具有高度的任务特定性,这就阻止了它们被推广到其他任务。对此就出现了一个问题:我们能否为所有 V+L 任务学习一个通用的图像文本表示?
为了回答这个问题,作者引入了 UNiversal Image-Text Representations (UNITER),这是一种用于多模态嵌入的大规模预训练模型。作者采用 Transformer 作为模型的核心,利用自注意力机制为学习文本表征。受 BERT 的启发,它通过大规模语言建模成功地将 Transformer 应用于 NLP 任务,作者通过三个预训练任务对 UNITER 进行预训练:
- (i) 基于图像的掩码语言建模 (MLM);
- (ii) 基于文本的 掩码区域建模 (MRM);
- (iii) 联合图像文本匹配 (ITM)。
为了进一步研究 MRM 的有效性,作者提出了三种 MRM 变体: - (i) 掩码区域分类(MRC);
- (ii) 掩码区域特征回归(MRFR);
- (iii) 带有 KL-散度 (MRC-kl) 的 掩码区域分类。
如图 1 所示,UNITER 首先使用 Image Embedder 和 Text Embedder 将图像区域(视觉特征和边界框特征)和文本词(标记和位置)编码到一个公共嵌入空间中,然后应用一个 Transformer 模块,通过上述预训练任务为每个区域和单词来学习可泛化的上下文。与使用两个流的 LXMERT和 ViLBERT 相比,UNITER 模型可以通过单个 Transformer 学习图像区域和文本词的联合上下文化表示。此外,作者的掩码语言/区域建模是基于对于图像/文本的全面观察,这与将联合随机掩码应用于两种模态的其他并行预训练模型不同。作者表明条件掩码策略可以成功地缓解图像和文本之间的缺失对齐,并为下游任务获得更好的联合嵌入。详细的消融研究还表明,MLM+ITM+MRC-kl+MRFR 的组合产生了最佳的预训练表现。
为了展示 UNITER 的强大功能,作者对九个数据集的六个 V+L 任务进行了评估,包括:(i) VQA; (ii) 视觉常识推理 (VCR); (iii) NLVR; (iv) 视觉蕴含; (v) 图像文本检索; (vi) 参考表达理解。 UNITER 模型在由四个子集组成的大规模 V+L 数据集上进行训练。
实验表明,UNITER 实现了最新的技术水平,并在所有六个下游任务中显着提升了性能。
本文的贡献可以总结如下:
- (i) 介绍了 UNITER,一个用于视觉和语言任务的通用图像文本表示
- (ii) 在多个 V+L 基准上实现了SOTA,大大优于现有的 SOTA 和并发多模态预训练方法
- (iii) 进行了大量的实验和分析,以提供有关多模态编码器训练的每个预训练任务/数据集的有效性的有用见解。
- UNiversal Image-Text Representations
2.1模型概述
UNITER的模型架构是如图 1 所示。给定一对图像和句子,UNITER 将图像的视觉区域和句子的文本标记作为输入。作者设计了一个图像嵌入器和一个文本嵌入器来提取它们各自的嵌入。然后将这些嵌入输入到多层 self-attention Transformer 中,用以学习视觉区域和文本标记之间的跨模态上下文嵌入。Transformer 中的 self-attention 机制是无序的,因此需要将标记/区域的位置/位置显式编码为附加输入。
具体来说,在 Image Embedder 中,作者首先使用 Faster R-CNN 来提取每个区域的视觉特征。此外作者还通过一个 7 维向量对每个区域的位置特征进行编码。然后,视觉和位置特征都通过一个全连接 (FC) 层,用以投影到相同的嵌入空间中。每个区域的最终视觉嵌入是通过将两个 FC 输出相加,然后通过层归一化 (LN) 层来得到的。对于Text Embedder,作者将输入句子标记为 WordPieces。每个子词标记的最终表示是通过总结其词嵌入和位置嵌入获得的,然后接着是另一个 LN 层。
作者用了三种任务预训练模型:基于图像的MLM,基于文本的MRM和图像文本匹配(ITM)。如图 1 所示,作者的 MRM 和 MLM 类似于 BERT,其中从输入中随机屏蔽一些单词或区域,Transformer 的输出是学习恢复这些单词或区域 。具体来说,词掩码是通过用特殊的标记 [MASK] 替换标记来实现的,区域掩码是通过将视觉特征向量替换为全零来实现的。
需要注意的是作者每次只屏蔽一种模态,同时保持另一种模态完好无损,而不是像 ViLBERT 和 LXMERT 那样随机屏蔽两种模态。当一个被屏蔽的区域碰巧被一个屏蔽词描述时,这可以防止潜在的未对齐。作者表示通过条件屏蔽,他们的模型能够学习更好的嵌入。最后,作者还通过 ITM 学习了整个图像和句子之间的实例级对齐(而不是标记/区域级)。在训练期间,作者对正负图像句子对进行采样,并学习它们的匹配分数。
为了使用上述不同任务对 UNITER 进行预训练,作者为每个小批量随机采样一个预训练任务,并且每次 SGD 更新仅对一个目标进行训练。
3.2 预训练任务
掩码语言建模(MLM)。作者将图像区域表示为,输入词,掩码索引。5在MLM中,我们随机以 15% 的概率屏蔽掉输入的词,并用特殊的 token[MASK]6 替换被屏蔽的词。目标是通过最小化负对数似然,根据对周围词sw\man和所有图像区域的观察来预测这些掩码词
图像文本匹配 (ITM) 在 ITM 中,一个额外的特殊标记 [CLS] 被输入到我们的模型中,它表示两种模态的融合表示。 ITM 的输入是一个句子和一组图像区域,输出是一个二进制标签(0 表示负匹配,1 表示正匹配)。我们提取[CLS]token的表示作为输入文本和图像的联合表示,然后输入一个全连接层和一个sigmoid函数来预测0到1之间的分数。我们将输出分数表示为sθ(w,v)。 ITM 监督是在 [CLS] 令牌上进行的。7在训练期间,我们在每一步从数据集 Dat 中采样一个正或负对 (w,v)。负对是通过用从其他样本中随机选择的替换成对样本中的图像或文本来创建的。我们表示标签 asy∈{0,1},表示采样对是否匹配。然后我们应用二元交叉熵损失进行优化
屏蔽区域建模 (MRM) 与 MLM 类似,我们也对图像区域进行采样并以 15% 的概率屏蔽其视觉特征。给定剩余区域v\man和所有wordsw,该模型被训练以重建maskedregionsvm。掩蔽区域的视觉特征 vm 被零替换。与表示为离散标签的文本标记不同,视觉特征是高维和连续的,因此不能通过类似然进行监督。 相反,我们提出了三个用于掩码区域建模的变体,它们共享相同的目标库:
1)Masked Region Feature Regression (MRFR) MRFR 学习将每个屏蔽区域的 Transformer 输出 v(i)m 回归到其视觉特征。具体来说,我们应用 FC 层将其 Transformer 输出转换为与输入 ROI 池化特征 (v(i)m) 相同维度的向量 hθ(v(i)m)。然后我们在两者之间应用 L2 回归:fθ(vm |v\m,w) =∑Mi=1‖hθ(v(i)m)−r(v(i)m)‖22.
2)Masked Region Classification (MRC)MRC 学习预测每个掩蔽区域的对象语义类.我们首先将屏蔽区域 v(i)min 的 Transformer 输出馈送到一个 FC 层来预测 Kobject 类的分数,它进一步通过一个 softmax 函数被转换为归一化分布 gθ(v(i)m)∈RK。请注意,没有真实标签,因为未提供对象类别。因此,我们使用 Faster R-CNN 的对象检测输出,并将检测到的对象类别(具有最高置信度)作为掩码区域的标签,将其转换为单热向量 c(v(i)m )∈RK。最终目标使交叉熵 (CE) 损失最小化:fθ(vm|v\m,w) =∑Mi=1CE(c(v(i)m),gθ(v(i)m))
- 带有 KL 散度的蒙版区域分类 (MRC-kl) MRC 将对象检测模型中最可能的对象类作为硬标签(w.p. 0 或 1),假设检测到的对象类是该区域的真实标签。然而,这可能不是真的,因为没有为检测到的区域提供真实标签。因此,在 MRC-kl 中,我们通过使用软标签作为监督信号来避免这种假设,该信号是检测器的原始输出(即对象类 ̃c(v(i)m) 的分布)。 MRC-kl 旨在将这些知识提炼到 UNITER 中,如 Hinton 等人。 (2015),通过最小化两个分布之间的 KL 散度:fθ(vm|v\m,w) =∑Mi=1DKL(̃c(v(i)m)||gθ(v(i)m))。
3.3 PRE-TRAININGDATASETS
我们基于四个现有的 V+L 数据集构建我们的预训练数据集:COCO (Lin et al., 2014)、Visual Genome (VG) (Krishna et al., 2017)、Conceptual Captions (CC) (Sharma et al., 2017)。 , 2018) 和 SBU Captions (Ordonez et al., 2011)。仅图像和句子对用于我们的预训练目的,这使得模型框架更具可扩展性,因为额外的图像-句子对很容易收集以进行进一步的预训练。
为了研究不同数据集对预训练的影响,我们将四个数据集分为两个类别。第一个由来自 COCO 的图像字幕数据和来自 VG 的密集字幕数据组成。我们称其为“域内”数据,因为大多数 V+L 任务都建立在这两个数据集之上。为了获得“公平”的数据拆分,我们合并来自 COCO 的原始训练和验证拆分,并排除出现在下游任务中的所有验证和测试图像。我们还通过 URL 匹配排除了所有共同出现的 Flickr30K(Plummer 等人,2015)图像,因为 COCO 和 Flickr30K 图像都是从 Flickr 爬取的,并且可能有重叠8。同样的规则也适用于 Visual Genome。通过这种方式,我们获得了 560 万个用于训练的图像-文本对和 131K 个用于我们内部验证的图像-文本对,这是 LXMERT (Tan & Bansal, 2019) 中使用的数据集大小的一半,这是由于对重叠图像和仅使用图像-文本对。我们还使用来自概念字幕(Sharma 等人,2018 年)和 SBU 字幕(Ordonezet al.,2011 年)的额外域外数据进行模型训练9。表中提供了清理分裂的统计数据
- 实验
我们通过将预训练模型转移到每个目标任务并通过端到端训练进行微调,在六个 V+L 任务(如表 2 中列出)上评估 UNITER。我们报告了两种模型尺寸的实验结果:具有 12 层的 UNITER-base 和具有 24 层的 UNITER-large