BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

姓名：陈耀鹏学号21181214008 学院：广州研究院时间：2021.11.20

【嵌牛导读】何恺明新论文：Masked Autoencoders 让计算机视觉通向大模型

【嵌牛鼻子】计算机视觉

【嵌牛提问】计算机视觉怎样应用于大模型？

【嵌牛正文】

前段时间，何恺明等人的一篇论文成为了计算机视觉圈的焦点。这篇论文仅用简单的 idea（即掩蔽自编码器，MAE）就达到了非常理想的性能，让人们看到了 Transformer 扩展到 CV 大模型的光明前景，给该领域的研究者带来了很大的鼓舞。

那么，MAE 就是大模型视觉模型预训练方法的巅峰了吗？显然不是，一大波挑战者已经在路上了，比如字节跳动、约翰霍普金斯大学等机构组成的联合团队。

在一篇最新的论文中，他们提出了适用于视觉任务的大规模预训练方法 iBOT，通过对图像使用在线 tokenizer 进行 BERT [1]式预训练让 CV 模型获得通用广泛的特征表达能力。该方法在十几类任务和数据集上刷新了 SOTA 结果，在一些指标上甚至超过了 MAE [2]。

论文链接：https://arxiv.org/abs/2111.07832

方法介绍

在 NLP 的大规模模型训练中，MLM（Masked Language Model）是非常核心的训练目标，其思想是遮住文本的一部分并通过模型去预测这些遮住部分的语义信息，通过这一过程可以使模型学到泛化的特征。NLP 中的经典方法 BERT 就是采用了 MLM 的预训练范式，通过 MLM 训练的模型已经被证明在大模型和大数据上具备极好的泛化能力，成为 NLP 任务的标配。

在该工作中，研究者主要探索了这种在 NLP 中主流的 Masked Modeling 是否能应用于大规模 Vision Transformer 的预训练。作者给出了肯定的回答，并认为问题关键在于 visual tokenizer 的设计。不同于 NLP 中 tokenization 通过离线的词频分析即可将语料编码为含高语义的分词，图像 patch 是连续分布的且存在大量冗余的底层细节信息。而作者认为一个能够提取图像 patch 中高层语义的 tokenizer 可帮助模型避免学习到冗余的这些细节信息。作者认为视觉的 tokenizer 应该具备两个属性：（a）具备完整表征连续图像内容的能力；(b) 像 NLP 中的 tokenizer 一样具备高层语义。

如何才能设计出一个 tokenizer，使之同时具备以上的属性呢？作者首先将经过 mask 过的图片序列输入 Transformer 之后进行预测的过程建模为知识蒸馏的过程：

作者发现，通过使用在线 tokenizer 监督 MIM 过程，即 tokenizer 和目标网络同步学习，能够较好地保证语义的同时并将图像内容转化为连续的特征分布。具体地，tokenizer 和目标网络共享网络结构，在线即指 tokenizer 其参数从目标网络的历史参数中滑动平均得出。该形式近期在 DINO [3]中以自蒸馏被提出，并被用以针对同一张图片的两个不同视野在 [CLS] 标签上的优化：

在该损失函数的基础之上，作者将 MIM 同样也使用自蒸馏的思路进行优化，其中在线 tokenizer 的参数即为目标网络历史参数的平均。其过程可表示为：

基于上述训练目标，作者提出了一种新的自监督预训练框架 iBOT。iBOT 同时优化上述两项损失函数。其中，在 [CLS] 标签上的自蒸馏保证了在线 tokenizer 学习到高语义特征，并将该语义迁移到 MIM 的优化过程中；而在 patch 标签上的自蒸馏则将在线 tokenizer 表征的 patch 连续分布作为目标监督 masked patch 的复原。该方法在保证模型学习到高语义特征的同时，通过 MIM 显式建模了图片的内部结构。同时，在线 tokenizer 与 MIM 目标可以一起端到端地学习，无需额外的 tokenizer 训练阶段。

预训练时采用孪生网络结构，其中在线 tokenizer 可以看作教师分支的一部分。教师、学生两分支包括结构相同的 backbone 网络和 projection 网络。作者广泛验证了 iBOT 方法搭配不同的 Transformers 作为 backbone，如 Vision Transformers（ViT-S/16, ViT-B/16, ViT-L/16）及 Swin Transformers（Swin-T/7, Swin-T/14）。作者发现共享 [CLS] 标签与 patch 标签的 projection 网络能够有效提升模型在下游任务上的迁移性能。作者还采用了随机 MIM 的训练机制，对每张图片而言，以 0.5 的概率不进行 mask，以 0.5 的概率从 [0.1, 0.5] 区间随机选取一个比例进行 mask。实验表明随机 MIM 的机制对于使用了 multi-crop 数据增强的 iBOT 非常关键。

实验结果

为了验证 iBOT 预训练方法的有效性，作者在大量的下游任务上进行了验证，同时也在附录里提供了比较详细的不同任务超参数对最终结果的影响。

从 Linear probing（线性分类）及 k-NN 分类的结果上来看，iBOT 使用 ViT-B/16 达到 79.5% 线性分类准确度，超越了 DINO 的 78.2%；使用 Swin-T/14 达到 79.3% 准确度，超越了 EsViT 的 78.7%；使用 ViT-L/16 及 ImageNet-22K 作为预训练数据达到 81.6% 准确度，为目前 ImageNet-1K 线性分类基准上最高的结果。

从 Fine-tuning 的结果上来看，使用 ImageNet-1K 作为预训练数据及 ViT-B/16 时 iBOT 可达到 83.8% 准确率，高于 DINO、MAE 的 83.6%；使用 ImageNet-22K 作为预训练数据及 ViT-L/16 时 iBOT 可达到 86.3%，高于 BEiT [4]的 86.0%。

在半监督及无监督分类的结果上来看，iBOT 也显著优于没有 MIM 训练目标的 DINO。其中在半监督的基准下，作者发现微调数据越少时，iBOT 的优势越明显。在无监督的基准下，iBOT 能达到 43.4% 的准确率以及 78.6% 的 NMI。

除此之外，因为 MIM 显示建模了图片内部结构，作者发现 iBOT 在密集的下游任务也有非常好的迁移结果。其中 iBOT 使用 ViT-B/16 及 Cascade Mask R-CNN 在目标检测下可达到 51.2 APb；使用 ViT-B/16 及 UperNet 在语义分割下可达到 50.0 mAP，高于 MAE 达到的 48.1 mAP。

同时作者也进一步探究了 MIM 训练目标所带来的特性，以帮助分析 iBOT 在全局图像任务及密集图像任务出色表现的原因。作者根据 ImageNet 验证集中所有图片 patch 的概率分布，可视化了部分类别中心所代表的模式。作者在大量的可视化结果中发现 iBOT 针对局部语义有非常好的可视化结果，如下图左一、左二中所示的车灯、狗耳朵展现了不同局部类别语义的出现，而在下图左三、左四中展现了不同局部纹理语义的出现。

在大量鲁棒性分析及测评中，作者发现 iBOT 相较没有 MIM 训练目标的 DINO 有更出色的表现，这说明局部语义的出现能够帮助模型在遮挡、模糊等一系列干扰存在的图像识别任务下有更好的准确性。

方法对比

近期 masked autoencoding 的思路可谓在视觉领域大火，和近期一些工作对比，BEiT 使用了一个预训练好的 DALL-E encoder 作为 tokenizer，将每个 patch 标签离散化后的 one-hot 编码作为目标模型的标签。

而 MPP [5]及近期较火的 MAE 则可将 tokenizer 视为恒等变换，即直接在像素空间内进行回归而非分类。

而 iBOT 则指出了上述几种方式的 tokenizer 存在过度关注低级信息的问题，这也可以从上述几种方法线性分类的性能不是很高可以看出。但近期 MAE 中指出当图片中被 mask 的比例足够大时，可使网络无法从相近 patches 中插值获取信息从而迫使其学到全局信息；MAE 还指出线性分类并不是唯一评估特征表征能力的基准，且和下游迁移学习的表现不能较好相关。

转载自：http://www.techweb.com.cn/cloud/2021-11-19/2865796.shtml

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,233评论 6赞 495
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,357评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,831评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,313评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,417评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,470评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,482评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,265评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,708评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,997评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,176评论 1赞 342
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,827评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,503评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,150评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,391评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,034评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,063评论 2赞 352

BERT是图像预训练未来？字节iBOT刷新十几项SOTA，部分指标超MAE

推荐阅读更多精彩内容