图像也是一门语言？微软提出19亿参数的超大通用模型BEIT-3，刷榜多个CV和多模态任务！

【写在前面】

语言、视觉和多模态预训练的大融合正在出现。在这项工作中，作者引入了一个通用的多模态基础模型 BEIT-3，它在视觉和视觉语言任务上都实现了最先进的迁移性能。具体来说，作者从三个方面推进大融合：骨干架构、预训练任务和模型扩展。作者为通用建模引入了 Multiway Transformers，其中模块化架构支持深度融合和特定于模态的编码。基于共享主干，作者以统一的方式对图像（Imglish）、文本（English）和图像-文本对（“parallel sentences”）进行掩码“语言”建模。实验结果表明，BEIT-3 在对象检测 (COCO)、语义分割 (ADE20K)、图像分类 (ImageNet)、视觉推理 (NLVR2)、视觉问答 (VQAv2)、图像字幕方面获得了最先进的性能（COCO）和跨模态检索（Flickr30K，COCO）。

1. 论文和代码地址

Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

论文地址：https://arxiv.org/abs/2208.10442

代码地址：https://aka.ms/beit-3

2. 动机

近年来，语言、视觉和多模态预训练大融合的趋势。通过对海量数据进行大规模预训练，可以轻松地将模型迁移到各种下游任务。可以预训练一个处理多种模态的通用基础模型，这很有吸引力。在这项工作中，作者从以下三个方面推进视觉语言预训练的收敛趋势。

首先，Transformers的成功是从语言翻译运用到视觉和多模态的问题。网络架构的统一使我们能够无缝地处理多种模态。对于视觉语言建模，由于下游任务的不同性质，有多种方法可以应用 Transformer。例如，双编码器架构用于高效检索，编码器-解码器网络用于生成任务，融合编码器架构用于图像-文本编码。然而，大多数基础模型必须根据特定架构手动转换最终任务格式。此外，参数通常不能有效地跨模态共享。在这项工作中，作者采用** Multiway Transformers **进行通用建模，即为各种下游任务共享一个统一架构。模块化网络还综合考虑了特定于模态的编码和跨模态融合。

其次，基于掩码数据建模的预训练任务已成功应用于各种模态，例如文本、图像和图像-文本对。当前的视觉语言基础模型通常会同时处理其他预训练目标（例如图像-文本匹配），从而导致放大不友好且效率低下。相比之下，本文只使用一个预训练任务，即 mask-then-predict，来训练一个通用的多模态基础模型。通过将图像视为一门外语（即 Imglish），作者以相同的方式处理文本和图像，而没有基本的建模差异。因此，图像-文本对被用作“平行句子”，以学习模态之间的对齐。作者还表明，这种简单而有效的方法学习了强大的可迁移表示，在视觉和视觉语言任务上都实现了最先进的性能。显着的成功证明了生成式预训练的优越性。

第三，扩大模型规模和数据规模普遍提高了基础模型的泛化质量，以便可以将它们转移到各种下游任务中。作者遵循这一理念并将模型规模扩大到数十亿个参数。此外，作者在实验中扩大了预训练数据的大小，同时仅将可公开访问的资源用于学术。尽管没有使用任何私人数据，但本文的方法在相当大的程度上优于依赖内部数据的最先进的基础模型。此外，扩大规模得益于将图像视为外语，因为作者可以直接重用为大规模语言模型预训练开发的管道。

在这项工作中，作者利用上述想法来预训练一个通用的多模态基础模型** BEIT-3**。通过对图像、文本和图像-文本对执行掩码数据建模来预训练 Multiway Transformer。在预训练期间，作者随机屏蔽一定比例的文本标记或图像块。自监督学习的目标是在给定损坏的输入的情况下恢复原始标记（即文本标记或视觉标记）。该模型是通用的，因为无论输入模态或输出格式如何，它都可以重新用于各种任务。

如上图和上表所示，BEIT-3 在广泛的视觉和视觉语言任务中实现了最先进的迁移性能。作者在广泛的下游任务和数据集上评估 BEIT-3，即对象检测 (COCO)、实例分割 (COCO)、语义分割 (ADE20K)、图像分类 (ImageNet)、视觉推理 (NLVR2)、视觉问答 (VQAv2) ，图像字幕（COCO）和跨模态检索（Flickr30K，COCO）。具体来说，尽管作者只使用公共资源进行预训练和微调，但本文的模型优于以前的强大基础模型。该模型也比专门的模型获得了更好的结果。此外，BEIT-3 不仅在视觉语言任务上表现出色，而且在视觉任务（如对象检测和语义分割）上也表现出色。

3. 方法

如上图所示，BEIT-3 使用共享的 Multiway Transformer 网络通过对单模态和多模态数据的掩码数据建模进行预训练。该模型可以转移到各种视觉和视觉语言下游任务。

3.1 Backbone Network: Multiway Transformers

作者使用 Multiway Transformers 作为主干模型来编码不同的模态。如上图所示，每个 Multiway Transformer 模块都由一个共享的自注意模块和一个用于不同模态的前馈网络（即模态专家）池组成。根据其形式将每个输入token路由给专家。在本文的实现中，每一层都包含一个视觉专家和一个语言专家。此外，前三层有专为融合编码器设计的视觉语言专家。使用模态专家池鼓励模型捕获更多特定于模态的信息。共享的自注意模块学习不同模态之间的对齐，并为多模态（例如视觉语言）任务实现深度融合。

如上图所示，统一的架构使 BEIT-3 能够支持广泛的下游任务。例如，BEIT-3 可以用作各种视觉任务的图像主干，包括图像分类、对象检测、实例分割和语义分割。它还可以微调为双编码器，用于高效的图像-文本检索，以及用于多模态理解和生成任务的融合模型。

3.2 Pretraining Task: Masked Data Modeling

通过统一的掩码数据建模目标对单模态（即图像和文本）和多模态数据（即图像-文本对）进行预训练 BEIT-3。在预训练期间，作者随机屏蔽一定百分比的文本标记或图像块，并训练模型以恢复被屏蔽的标记。统一的掩码然后预测任务不仅学习表示，还学习不同模态的对齐。具体来说，文本数据由 SentencePiece 标记器进行标记。图像数据通过 BEIT v2 的分词器进行分词，得到离散的视觉分词作为重建目标。作者从图像-文本对中随机屏蔽 15% 的单模态文本标记和 50% 的图文对中的文本标记。对于图像，作者使用 BEIT 中的分块屏蔽策略屏蔽 40% 的图像块。

作者只使用一个预训练任务，这使得训练过程的扩展友好。相比之下，以前的视觉语言模型通常采用多个预训练任务，例如图文对比、图文匹配和单词-patch/区域对齐。作者展示了一个小得多的预训练batch大小可以用于 mask-then-predict 任务。相比之下，基于对比的模型通常需要非常大的batch size进行预训练，这带来了更多的工程挑战，例如GPU内存成本。

3.3 Scaling Up: BEIT-3 Pretraining

Backbone Network

BEIT-3 是继 ViTgiant搭建之后的巨型基础模型。如上表所示，该模型由一个 40 层的 Multiway Transformer 组成，具有 1408 的隐藏大小、6144 的中间大小和 16 个注意力头。所有层都包含视觉专家和语言专家。视觉语言专家也采用于前三个 Multiway Transformer 层。自注意力模块在不同的模态中共享。 BEIT-3总共由1.9B个参数组成，其中视觉专家参数692M，语言专家参数692M，视觉语言专家参数52M，共享自注意力模块参数317M。请注意，当模型用作视觉编码器时，仅激活与视觉相关的参数（即，与 ViT-giant 相当的大小；大约 1B）。

Pretraining Data

BEIT-3 在上表中显示的单模态和多模态数据上进行了预训练。对于多模态数据，从五个公共数据集中收集了大约 1500 万张图像和 2100 万张图文对：Conceptual 12M (CC12M)、Conceptual Captions (CC3M) 、SBU Captions (SBU) 、COCO 和视觉基因组 (VG) 。对于单模态数据，使用来自 ImageNet-21K 的 14M 图像和来自英语 Wikipedia、BookCorpus 、OpenWebText3、CC-News 和 Stories 的 160GB 文本语料库。

4.实验

上表展示了本文方法在三个多模态数据集上的实验结果。

多模态检索数据集上的结果。

多模态检索数据集上的Zero-shot结果。

目标检测和实例分割的实验结果。

语义分割的实验结果。

图像分类的实验结果。

5. 总结

在本文中，作者提出了 BEIT-3，这是一种通用的多模态基础模型，它在广泛的视觉和视觉语言基准测试中实现了最先进的性能。 BEIT-3 的核心思想是图像可以建模为一门外语，这样就可以统一对图像、文本和图文对进行蒙版“语言”建模。作者还展示了 Multiway Transformers 可以有效地对不同的视觉和视觉语言任务进行建模，使其成为通用建模的有趣选择。 BEIT-3简单有效，是扩大多模态基础模型的一个有前途的方向。对于未来的工作，作者正在努力对多语言 BEIT-3 进行预训练，并在 BEIT-3 中加入更多的模态（例如音频），以促进跨语言和跨模态的迁移，并推动大规模预训练跨任务的大融合、语言和方式。

【技术交流】

已建立深度学习公众号——FightingCV，关注于最新论文解读、基础知识巩固、学术科研交流，欢迎大家关注！！！

请关注FightingCV公众号，并后台回复ECCV2022即可获得ECCV中稿论文汇总列表。

推荐加入FightingCV交流群，每日会发送论文解析、算法和代码的干货分享，进行学术交流，加群请添加小助手wx：FightngCV666，备注：地区-学校（公司）-名称

面向小白的顶会论文核心代码库：https://github.com/xmu-xiaoma666/External-Attention-pytorch

面向小白的YOLO目标检测库：https://github.com/iscyy/yoloair

【赠书活动】

为感谢各位老粉和新粉的支持，FightingCV公众号将在9月10日包邮送出4本《深度学习与目标检测：工具、原理与算法》来帮助大家学习，赠书对象为当日阅读榜和分享榜前两名。想要参与赠书活动的朋友，请添加小助手微信FightngCV666（备注“城市-方向-ID”），方便联系获得邮寄地址。

本文由mdnice多平台发布

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,287评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,346评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,277评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,132评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,147评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,106评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,019评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,862评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,301评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,521评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,682评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,405评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,996评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,651评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,803评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,674评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,563评论 2赞 352