ECCV2022 Oral | MaskCLIP

<section data-tool="mdnice编辑器" data-website="https://www.mdnice.com" style="font-size: 16px; color: black; padding-right: 10px; padding-left: 10px; line-height: 1.6; letter-spacing: 0px; word-break: break-word; text-align: left; font-family: Optima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif; visibility: visible;" data-mpa-powered-by="yiban.io"><h1 data-tool="mdnice编辑器" style="margin-top: 30px; margin-bottom: 15px; font-weight: bold; font-size: 24px; visibility: visible;"><span style="display: none;"></span><span style="visibility: visible;">ECCV2022 Oral | MaskCLIP</span><span style="visibility: visible;"></span></h1><h1 data-tool="mdnice编辑器" style="margin-top: 30px; margin-bottom: 15px; font-weight: bold; font-size: 24px; visibility: visible;"><span style="display: none;"></span><span style="visibility: visible;">【写在前面】</span><span style="visibility: visible;"></span></h1><p data-tool="mdnice编辑器" style="padding-top: 8px; padding-bottom: 8px; line-height: 26px; visibility: visible;">对比语言图像预训练（CLIP）在开放词汇零样本图像识别方面取得了显着突破。许多最近的研究利用预训练的 CLIP 模型进行图像级分类和操作。在本文中，作者希望检验 CLIP 在像素级密集预测方面的内在潜力，特别是在语义分割方面。为此，作者通过最少的修改展示了 MaskCLIP 在没有注释和微调的情况下，在跨各种数据集的开放概念上产生了令人信服的分割结果。通过添加伪标签和自训练，MaskCLIP+ 大大超过了 SOTA 转导零样本语义分割方法，例如，PASCAL VOC/PASCAL Context/COCO Stuff 上未见类的 mIoU 从 35.6/20.7/30.3 提高到 86.1/66.7 /54.7。作者还测试了 MaskCLIP 在输入损坏下的鲁棒性，并评估了它在区分细粒度对象和新概念方面的能力。本文的发现表明，MaskCLIP 可以作为密集预测任务的新可靠监督来源，以实现无注释分割。</p><h1 data-tool="mdnice编辑器" style="margin-top: 30px; margin-bottom: 15px; font-weight: bold; font-size: 24px; visibility: visible;"><span style="display: none;"></span><span style="visibility: visible;">1. 论文和代码地址</span><span style="visibility: visible;"></span></h1><figure data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px; display: flex; flex-direction: column; justify-content: center; align-items: center; visibility: visible;"><img class="rich_pages wxw-img" data-ratio="0.38934426229508196" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJLRMeIhl1VmNpdibpXXHiamSJcmHoqENUUSbyia3fUzcHxpZcD0wpq36ew/640?wx_fmt=png" data-type="png" data-w="488" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 488px !important;" data-index="1" data-origin-display="block" width="488px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-8868094dc0187654.png" data-fail="0"></figure><p data-tool="mdnice编辑器" style="padding-top: 8px; padding-bottom: 8px; line-height: 26px; visibility: visible;">Extract Free Dense Labels from CLIP</p><p data-tool="mdnice编辑器" style="padding-top: 8px; padding-bottom: 8px; line-height: 26px; visibility: visible;">论文地址：<span style="color: rgb(30, 107, 184); font-weight: bold; visibility: visible;">https://arxiv.org/abs/2112.01071</span><sup style="line-height: 0; color: rgb(30, 107, 184); font-weight: bold; visibility: visible;">[1]</p><p data-tool="mdnice编辑器" style="padding-top: 8px; padding-bottom: 8px; line-height: 26px; visibility: visible;">代码地址：<span style="color: rgb(30, 107, 184); font-weight: bold; visibility: visible;">https://github.com/chongzhou96/MaskCLIP</span><sup style="line-height: 0; color: rgb(30, 107, 184); font-weight: bold; visibility: visible;">[2]</p><h1 data-tool="mdnice编辑器" style="margin-top: 30px; margin-bottom: 15px; font-weight: bold; font-size: 24px; visibility: visible;"><span style="display: none;"></span><span style="visibility: visible;">2. 动机</span><span style="visibility: visible;"></span></h1><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">诸如 CLIP之类的大规模视觉语言预训练模型捕获富有表现力的视觉和语言特征。各种下游视觉任务，例如文本驱动的图像处理、图像字幕、视图合成和对象检测，都试图利用这些特征来提高通用性和鲁棒性。例如，基于原始 CLIP 特征进行零样本图像分类会导致一种与完全监督对应物的性能相匹配的竞争方法。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">在本文中，作者进一步探索了 CLIP 特征在语义分割等像素级密集预测任务中的适用性。这项调查是有意义的，因为以前的研究主要利用 CLIP 特征作为全局图像表示。相比之下，<strong>本文的探索希望确定 CLIP 特征在封装对象级和局部语义以进行密集预测的程度</strong>。与对标志性图像进行图像分类的传统预训练任务不同，CLIP 从复杂场景的图像及其自然语言描述中学习，这（1）<strong>鼓励它将局部图像语义嵌入其特征中</strong>，（2）<strong>使其能够学习开放词汇表中的概念</strong>，以及（3）<strong>捕获丰富的上下文信息，例如某些对象的共现/关系和空间位置的先验</strong>。作者相信所有这些优点都极大地促进了其在密集预测任务中的潜力。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">在本文中，总结了利用 CLIP 特征进行密集预测的成功和失败经验。作者发现不破坏原始 CLIP 特征空间中的视觉语言关联至关重要。在本文早期的探索中，作者在尝试微调 CLIP 的图像编码器以进行分割任务时遇到了失败，例如，使用 CLIP 的图像编码器的权重初始化 DeepLab并微调分割的主干。此外，作者发现避免任何不必要的尝试操纵 CLIP 的文本嵌入是至关重要的。这种方法在分割看不见的类时会失败。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">在名为 MaskCLIP 的成功模型中，作者展示了可以简单地从 CLIP 的图像编码器中提取密集的patch级特征，即最后一个注意层的值特征，而不会破坏视觉语言关联。密集预测的分类权重，本质上是 1×1 卷积，可以直接从 CLIP 文本编码器的文本嵌入中获得，无需任何刻意的映射。在实证研究中，MaskCLIP 在通过 mIoU 度量和定性结果测量的定量性能方面产生了合理的预测。此外，MaskCLIP 可以基于 CLIP 的所有变体，包括 ResNets 和 ViTs。作者提供了两个流行的骨干网络之间的并排比较。作者还为 MaskCLIP 提出了两种掩码细化技术以进一步提高其性能，即<strong>key smoothing</strong>和<strong>prompt denoising</strong>，两者都不需要训练。具体来说，键平滑（key smoothing）计算不同块的键特征（最后一个注意层）之间的相似性，用于平滑预测。提示去噪（prompt denoising）去除了图像中不太可能存在的类别的提示，因此干扰更少，预测变得更准确。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">然而，MaskCLIP 的分割能力很难进一步提高，因为它的架构仅限于 CLIP 的图像编码器。为了从架构约束中放松 MaskCLIP 并结合更高级的架构，例如 PSPNet和 DeepLab，作者注意到，可以在训练时部署它，而不是在推理时部署 MaskCLIP，它用作提供高质量伪标签的通用且稳健的注释器。与标准的自训练策略一起生成的模型，称为 MaskCLIP+，实现了惊人的性能。</p><figure data-tool="mdnice编辑器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.47692307692307695" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJczjNDGKTM3RkkwPcqUTwyTrXGzUDCt5diaCNUAUDjgYib2iakuo8OPnTQ/640?wx_fmt=png" data-type="png" data-w="715" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="2" data-origin-display="block" width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-48a975056729b734.png" data-fail="0"></figure><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">除了无注释和开放词汇分割之外，MaskCLIP+ 还可以应用于零样本语义分割任务，其中 MaskCLIP 只为看不见的类生成伪标签。在三个标准分割基准上，即 PASCAL VOC 、PASCAL Context 和 COCO Stuff，MaskCLIP+ 在未见类的 mIoU 方面将最先进的结果提高了50.5%，46% 和 24.4%（35.6 → 86.1、20.7 → 66.7 和 30.3 → 54.7）。由于 CLIP 特征的通用性和鲁棒性，MaskCLIP+ 可以很容易地应用于语义分割的各种扩展设置，包括细粒度类（例如，白色汽车和红色巴士等属性条件类）或新概念（例如蝙蝠侠和小丑如上图所示），以及中度损坏输入的分割。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">语义分割因其对标记训练数据的高度依赖而被限制。已经探索了许多方法来绕过这种严格的要求，例如，通过使用图像标签、边界框和涂鸦等弱标签。本文的研究首次表明，通过大规模视觉语言预训练学习的特征可以很容易地用于促进开放词汇密集预测。所提出的模型 MaskCLIP 在为训练现有方法提供丰富且有意义的密集伪标签方面显示出巨大的潜力。</p><h1 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>3. 方法</span><span></span></h1><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">本文的研究是探索 CLIP 特征对像素级密集预测任务的适用性的早期尝试。作者首先简要介绍 CLIP 和一个简单的解决方案作为初步，然后详细介绍提议的 MaskCLIP。</p><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 22px;"><span style="display: none;"></span><span>3.1 Preliminary on CLIP</span><span></span></h2><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">CLIP是一种视觉语言预训练方法，它从大规模的原始网络策划的图像-文本对中学习视觉和语言表示。它由一个图像编码器 <span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{V}(\cdot)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 1714 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 3.878ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="56" d="M25 633Q25 647 47 665T100 683Q291 683 291 306Q291 264 288 213T282 132L279 102Q281 102 308 126T378 191T464 279T545 381T596 479Q600 490 600 502Q600 527 581 550T523 577Q505 577 505 601Q505 622 516 647T542 681Q546 683 558 683Q605 679 631 645T658 559Q658 423 487 215Q409 126 308 37T190 -52Q177 -52 177 -28Q177 -26 183 15T196 127T203 270Q203 356 192 421T165 523T126 583T83 613T41 620Q25 620 25 633Z"></path></g></g><g data-mml-node="mo" transform="translate(658, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1047, 0)"><path data-c="22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1325, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>和一个文本编码器<span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{T}(\cdot)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 1889 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 4.274ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="54" d="M49 475Q34 475 34 490Q34 552 106 611T261 681Q272 683 507 683H742Q790 717 816 717Q833 717 833 708Q833 682 795 653T714 615Q691 610 588 609Q490 609 490 607L483 580Q476 554 462 496T435 392Q410 289 395 231T363 116T335 34T309 -15T279 -47T242 -64Q231 -68 218 -68Q203 -68 203 -57Q203 -52 211 -38Q224 -7 234 20T251 66T268 123T283 179T304 261T328 360Q342 415 360 488Q380 567 384 582T397 605Q400 607 401 609H302H244Q200 609 188 607T167 596Q145 572 145 541Q145 520 109 498T49 475Z"></path></g></g><g data-mml-node="mo" transform="translate(833, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1222, 0)"><path data-c="22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1500, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>组成，两者联合训练以分别将输入图像和文本映射到一个统一的表示空间中。CLIP采用对比学习作为其训练目标，将ground-truth图文对视为正样本，将不匹配的图文对构造为负样本。在实践中，文本编码器被实现为 Transformer。至于图像编码器，CLIP 提供了两种替代实现，即 Transformer 和具有全局注意力池化层的 ResNet。本文的方法可以基于两种编码器架构。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">作者认为 CLIP 在学习将图像内容与自然语言描述相关联时，在其特征中固有地嵌入了局部图像语义，后者包含跨多个粒度的复杂而密集的语义指导。例如，为了正确识别图像对应于当裁判看着时击球手准备挥杆的描述，CLIP 必须将图像语义划分为局部片段，并将图像语义与单个提到的概念（如人）正确对齐, bat, swing, patch, man at bat, man at patch 和 man ready to swing，而不是将图像作为一个整体来处理。这种独特性在仅使用图像标签的训练中是不存在的。</p><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 22px;"><span style="display: none;"></span><span>3.2 Conventional Fine-Tuning Hinders Zero-Shot Ability</span><span></span></h2><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">当前训练分割网络的实际管道是（1）使用 ImageNet 预训练的权重初始化主干网络，（2）添加具有随机初始化权重的特定于分割的网络模块，以及（3）联合微调调整主干和新添加的模块。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">遵循这些标准步骤来调整 CLIP 进行分割是很自然的。在这里，作者通过在 DeepLab上应用这个管道和两个特定于 CLIP 的修改来开始本文的探索。具体来说，作者首先将 ImageNet 预训练的权重替换为 CLIP 图像编码器的权重。其次，采用映射器 M 将 CLIP 的文本嵌入映射到 DeepLab 分类器（最后一个 1×1 卷积层）的权重。修改后的模型可以表述如下：</p><span style="cursor:pointer;" data-tool="mdnice编辑器"><section role="presentation" data-formula="\begin{aligned} \operatorname{DeepLab}(x) &=\mathcal{C}{\phi}\left(\mathcal{H}\left(\mathcal{V}{* l}(x)\right)\right), \ \phi &=\mathcal{M}(t), \end{aligned}
" data-formula-type="block-equation" style=" text-align: center;overflow: auto; "><embed style="vertical-align: -2.087ex;width: 29.021ex;height: auto;max-width: 300% !important;" src="https://mmbiz.qpic.cn/mmbiz_svg/nibxxlib1VaPdABZfndAF7pqBlAETFPv0I9y2piciaPeyaQ00ajSTcJHJzjssx98awL3V101Mgre5IOaawbMicia4Zppq576VLaJTic/0?wx_fmt=svg" data-type="svg+xml"></section></span><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">其中<span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{V}{* l}(\cdot)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 2283.3 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 5.166ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="56" d="M25 633Q25 647 47 665T100 683Q291 683 291 306Q291 264 288 213T282 132L279 102Q281 102 308 126T378 191T464 279T545 381T596 479Q600 490 600 502Q600 527 581 550T523 577Q505 577 505 601Q505 622 516 647T542 681Q546 683 558 683Q605 679 631 645T658 559Q658 423 487 215Q409 126 308 37T190 -52Q177 -52 177 -28Q177 -26 183 15T196 127T203 270Q203 356 192 421T165 523T126 583T83 613T41 620Q25 620 25 633Z"></path></g></g><g data-mml-node="TeXAtom" transform="translate(613, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mo"><path data-c="2217" d="M229 286Q216 420 216 436Q216 454 240 464Q241 464 245 464T251 465Q263 464 273 456T283 436Q283 419 277 356T270 286L328 328Q384 369 389 372T399 375Q412 375 423 365T435 338Q435 325 425 315Q420 312 357 282T289 250L355 219L425 184Q434 175 434 161Q434 146 425 136T401 125Q393 125 383 131T328 171L270 213Q283 79 283 63Q283 53 276 44T250 35Q231 35 224 44T216 63Q216 80 222 143T229 213L171 171Q115 130 110 127Q106 124 100 124Q87 124 76 134T64 161Q64 166 64 169T67 175T72 181T81 188T94 195T113 204T138 215T170 230T210 250L74 315Q65 324 65 338Q65 353 74 363T98 374Q106 374 116 368T171 328L229 286Z"></path></g><g data-mml-node="mi" transform="translate(500, 0)"><path data-c="6C" d="M117 59Q117 26 142 26Q179 26 205 131Q211 151 215 152Q217 153 225 153H229Q238 153 241 153T246 151T248 144Q247 138 245 128T234 90T214 43T183 6T137 -11Q101 -11 70 11T38 85Q38 97 39 102L104 360Q167 615 167 623Q167 626 166 628T162 632T157 634T149 635T141 636T132 637T122 637Q112 637 109 637T101 638T95 641T94 647Q94 649 96 661Q101 680 107 682T179 688Q194 689 213 690T243 693T254 694Q266 694 266 686Q266 675 193 386T118 83Q118 81 118 75T117 65V59Z"></path></g></g></g><g data-mml-node="mo" transform="translate(1227.3, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1616.3, 0)"><path data-c="22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1894.3, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>表示 DeepLab 主干，它是一个扩大了 l 倍的 ResNet。<span style="cursor:pointer;"><span role="presentation" data-formula=" H(·) " data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 1944 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 4.398ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="48" d="M228 637Q194 637 192 641Q191 643 191 649Q191 673 202 682Q204 683 219 683Q260 681 355 681Q389 681 418 681T463 682T483 682Q499 682 499 672Q499 670 497 658Q492 641 487 638H485Q483 638 480 638T473 638T464 637T455 637Q416 636 405 634T387 623Q384 619 355 500Q348 474 340 442T328 395L324 380Q324 378 469 378H614L615 381Q615 384 646 504Q674 619 674 627T617 637Q594 637 587 639T580 648Q580 650 582 660Q586 677 588 679T604 682Q609 682 646 681T740 680Q802 680 835 681T871 682Q888 682 888 672Q888 645 876 638H874Q872 638 869 638T862 638T853 637T844 637Q805 636 794 634T776 623Q773 618 704 340T634 58Q634 51 638 51Q646 48 692 46H723Q729 38 729 37T726 19Q722 6 716 0H701Q664 2 567 2Q533 2 504 2T458 2T437 1Q420 1 420 10Q420 15 423 24Q428 43 433 45Q437 46 448 46H454Q481 46 514 49Q520 50 522 50T528 55T534 64T540 82T547 110T558 153Q565 181 569 198Q602 330 602 331T457 332H312L279 197Q245 63 245 58Q245 51 253 49T303 46H334Q340 38 340 37T337 19Q333 6 327 0H312Q275 2 178 2Q144 2 115 2T69 2T48 1Q31 1 31 10Q31 12 34 24Q39 43 44 45Q48 46 59 46H65Q92 46 125 49Q139 52 144 61Q147 65 216 339T285 628Q285 635 228 637Z"></path></g><g data-mml-node="mo" transform="translate(888, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1277, 0)"><path data-c="B7" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1555, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>表示随机初始化的ASPP模块，<span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{C}{\phi}(\cdot)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 2054.4 1045" aria-hidden="true" style="vertical-align: -0.667ex;width: 4.648ex;height: 2.364ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="43" d="M201 -25Q167 -25 136 -14T75 23T29 94T12 202Q12 290 50 394T161 574Q227 642 303 673T433 704Q435 705 457 705Q533 701 533 640Q533 606 507 548T464 474Q431 444 396 444Q381 444 381 453Q381 459 388 473T407 513T428 563Q433 580 433 594Q433 636 381 636Q314 636 260 594T175 489T128 363T112 247Q112 157 153 101T273 44Q347 44 398 121Q413 144 437 157T481 171Q496 171 496 160Q496 150 476 123Q426 56 350 16T201 -25Z"></path></g></g><g data-mml-node="TeXAtom" transform="translate(527, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="3D5" d="M409 688Q413 694 421 694H429H442Q448 688 448 686Q448 679 418 563Q411 535 404 504T392 458L388 442Q388 441 397 441T429 435T477 418Q521 397 550 357T579 260T548 151T471 65T374 11T279 -10H275L251 -105Q245 -128 238 -160Q230 -192 227 -198T215 -205H209Q189 -205 189 -198Q189 -193 211 -103L234 -11Q234 -10 226 -10Q221 -10 206 -8T161 6T107 36T62 89T43 171Q43 231 76 284T157 370T254 422T342 441Q347 441 348 445L378 567Q409 686 409 688ZM122 150Q122 116 134 91T167 53T203 35T237 27H244L337 404Q333 404 326 403T297 395T255 379T211 350T170 304Q152 276 137 237Q122 191 122 150ZM500 282Q500 320 484 347T444 385T405 400T381 404H378L332 217L284 29Q284 27 285 27Q293 27 317 33T357 47Q400 66 431 100T475 170T494 234T500 282Z"></path></g></g></g><g data-mml-node="mo" transform="translate(998.4, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1387.4, 0)"><path data-c="22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1665.4, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>是DeepLab分类器，其权重记为<span style="cursor:pointer;"><span role="presentation" data-formula="\phi" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -694 596 899" aria-hidden="true" style="vertical-align: -0.464ex;width: 1.348ex;height: 2.034ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="3D5" d="M409 688Q413 694 421 694H429H442Q448 688 448 686Q448 679 418 563Q411 535 404 504T392 458L388 442Q388 441 397 441T429 435T477 418Q521 397 550 357T579 260T548 151T471 65T374 11T279 -10H275L251 -105Q245 -128 238 -160Q230 -192 227 -198T215 -205H209Q189 -205 189 -198Q189 -193 211 -103L234 -11Q234 -10 226 -10Q221 -10 206 -8T161 6T107 36T62 89T43 171Q43 231 76 284T157 370T254 422T342 441Q347 441 348 445L378 567Q409 686 409 688ZM122 150Q122 116 134 91T167 53T203 35T237 27H244L337 404Q333 404 326 403T297 395T255 379T211 350T170 304Q152 276 137 237Q122 191 122 150ZM500 282Q500 320 484 347T444 385T405 400T381 404H378L332 217L284 29Q284 27 285 27Q293 27 317 33T357 47Q400 66 431 100T475 170T494 234T500 282Z"></path></g></g></g></svg></span></span>，由CLIP的文本嵌入通过映射器M确定。理想情况下，通过更新分类器权重与相应的文本嵌入，适应的 DeepLab 能够在不重新训练的情况下分割不同的类。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">为了评估这个修改后的 DeepLab 在可见和不可见类上的分割性能，作者在数据集中的一个类子集上对其进行训练，将其余类视为不可见类。作者已经尝试了一系列映射器架构。尽管它们在可见类上表现良好，但在所有这些情况下，修改后的 DeepLab 都未能以令人满意的性能分割不可见的类。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">作者假设这主要是因为 CLIP 特征的原始视觉语言关联已被打破：（1）<strong>主干在网络架构方面与图像编码器略有不同</strong>； (2) <strong>从图像编码器初始化的权重在微调期间已经更新</strong>； (3)** 引入了一个额外的映射器，它仅在所见类的数据上进行训练，因此导致通用性不足**。</p><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 22px;"><span style="display: none;"></span><span>3.3 MaskCLIP</span><span></span></h2><figure data-tool="mdnice编辑器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.6507042253521127" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJaKWTuK4PNWtFCnSPqx2B9P8ibQN53nhOJjj6vxtUAyuicF7cXlPxpKKA/640?wx_fmt=png" data-type="png" data-w="710" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="3" data-origin-display="block" width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-6dae1489be1ce4e8.png" data-fail="0"></figure><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">微调尝试失败，作者转向避免引入额外参数和修改 CLIP 特征空间的解决方案。为此，重新审视了 CLIP 的图像编码器，尤其是其独特的全局注意力池化层。如上图(b) 所示，与传统的全局平均池化不同，CLIP 的图像编码器采用 Transformer 式的多头注意力层，其中全局平均池化的特征作为查询，每个空间位置的特征生成一个 key-value对。因此，该层的输出是输入特征图的空间加权和，然后是线性层 <span style="cursor:pointer;"><span role="presentation" data-formula="F(·)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 1805 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 4.084ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="46" d="M48 1Q31 1 31 11Q31 13 34 25Q38 41 42 43T65 46Q92 46 125 49Q139 52 144 61Q146 66 215 342T285 622Q285 629 281 629Q273 632 228 634H197Q191 640 191 642T193 659Q197 676 203 680H742Q749 676 749 669Q749 664 736 557T722 447Q720 440 702 440H690Q683 445 683 453Q683 454 686 477T689 530Q689 560 682 579T663 610T626 626T575 633T503 634H480Q398 633 393 631Q388 629 386 623Q385 622 352 492L320 363H375Q378 363 398 363T426 364T448 367T472 374T489 386Q502 398 511 419T524 457T529 475Q532 480 548 480H560Q567 475 567 470Q567 467 536 339T502 207Q500 200 482 200H470Q463 206 463 212Q463 215 468 234T473 274Q473 303 453 310T364 317H309L277 190Q245 66 245 60Q245 46 334 46H359Q365 40 365 39T363 19Q359 6 353 0H336Q295 2 185 2Q120 2 86 2T48 1Z"></path></g><g data-mml-node="mo" transform="translate(749, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1138, 0)"><path data-c="B7" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1416, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>：</p><span style="cursor:pointer;" data-tool="mdnice编辑器"><section role="presentation" data-formula="\begin{aligned} \operatorname{AttnPool}(\bar{q}, k, v) &=\mathcal{F}\left(\sum{i} \operatorname{softmax}\left(\frac{\bar{q} k_{i}^{\top}}{C}\right) v_{i}\right) \ &=\sum_{i} \operatorname{softmax}\left(\frac{\bar{q} k_{i}^{\top}}{C}\right) \mathcal{F}\left(v_{i}\right), \ \bar{q}=\operatorname{Emb}{\mathrm{q}}(\bar{x}), k{i} &=\operatorname{Emb}{\mathrm{k}}\left(x{i}\right), v_{i}=\operatorname{Emb}{\mathrm{v}}\left(x{i}\right), \end{aligned}
" data-formula-type="block-equation" style=" text-align: center;overflow: auto; "><embed style="vertical-align: -8.071ex;width: 46.686ex;height: auto;max-width: 300% !important;" src="https://mmbiz.qpic.cn/mmbiz_svg/nibxxlib1VaPdABZfndAF7pqBlAETFPv0If8h11MQHZEmmjGWBgxDxDHt8gpQbayX7Tx86JliboiaHKzyS1x5ibSgG3HEMkU0YKxL/0?wx_fmt=svg" data-type="svg+xml"></section></span><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">其中 C 是一个常数比例因子，而 Emb(·) 表示一个线性嵌入层。<span style="cursor:pointer;"><span role="presentation" data-formula="x_{i}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -442 866 599.8" aria-hidden="true" style="vertical-align: -0.357ex;width: 1.959ex;height: 1.357ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="mi"><path data-c="78" d="M52 289Q59 331 106 386T222 442Q257 442 286 424T329 379Q371 442 430 442Q467 442 494 420T522 361Q522 332 508 314T481 292T458 288Q439 288 427 299T415 328Q415 374 465 391Q454 404 425 404Q412 404 406 402Q368 386 350 336Q290 115 290 78Q290 50 306 38T341 26Q378 26 414 59T463 140Q466 150 469 151T485 153H489Q504 153 504 145Q504 144 502 134Q486 77 440 33T333 -11Q263 -11 227 52Q186 -10 133 -10H127Q78 -10 57 16T35 71Q35 103 54 123T99 143Q142 143 142 101Q142 81 130 66T107 46T94 41L91 40Q91 39 97 36T113 29T132 26Q168 26 194 71Q203 87 217 139T245 247T261 313Q266 340 266 352Q266 380 251 392T217 404Q177 404 142 372T93 290Q91 281 88 280T72 278H58Q52 284 52 289Z"></path></g><g data-mml-node="TeXAtom" transform="translate(572, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g></g></g></svg></span></span>表示空间位置 i 的输入特征，<span style="cursor:pointer;"><span role="presentation" data-formula="\bar{x}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -648 572 659" aria-hidden="true" style="vertical-align: -0.025ex;width: 1.294ex;height: 1.491ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mover"><g data-mml-node="mi"><path data-c="78" d="M52 289Q59 331 106 386T222 442Q257 442 286 424T329 379Q371 442 430 442Q467 442 494 420T522 361Q522 332 508 314T481 292T458 288Q439 288 427 299T415 328Q415 374 465 391Q454 404 425 404Q412 404 406 402Q368 386 350 336Q290 115 290 78Q290 50 306 38T341 26Q378 26 414 59T463 140Q466 150 469 151T485 153H489Q504 153 504 145Q504 144 502 134Q486 77 440 33T333 -11Q263 -11 227 52Q186 -10 133 -10H127Q78 -10 57 16T35 71Q35 103 54 123T99 143Q142 143 142 101Q142 81 130 66T107 46T94 41L91 40Q91 39 97 36T113 29T132 26Q168 26 194 71Q203 87 217 139T245 247T261 313Q266 340 266 352Q266 380 251 392T217 404Q177 404 142 372T93 290Q91 281 88 280T72 278H58Q52 284 52 289Z"></path></g><g data-mml-node="mo" transform="translate(63.8, -42)"><path data-c="AF" d="M69 544V590H430V544H69Z"></path></g></g></g></g></g></svg></span></span>是所有<span style="cursor:pointer;"><span role="presentation" data-formula="x_{i}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -442 866 599.8" aria-hidden="true" style="vertical-align: -0.357ex;width: 1.959ex;height: 1.357ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="mi"><path data-c="78" d="M52 289Q59 331 106 386T222 442Q257 442 286 424T329 379Q371 442 430 442Q467 442 494 420T522 361Q522 332 508 314T481 292T458 288Q439 288 427 299T415 328Q415 374 465 391Q454 404 425 404Q412 404 406 402Q368 386 350 336Q290 115 290 78Q290 50 306 38T341 26Q378 26 414 59T463 140Q466 150 469 151T485 153H489Q504 153 504 145Q504 144 502 134Q486 77 440 33T333 -11Q263 -11 227 52Q186 -10 133 -10H127Q78 -10 57 16T35 71Q35 103 54 123T99 143Q142 143 142 101Q142 81 130 66T107 46T94 41L91 40Q91 39 97 36T113 29T132 26Q168 26 194 71Q203 87 217 139T245 247T261 313Q266 340 266 352Q266 380 251 392T217 404Q177 404 142 372T93 290Q91 281 88 280T72 278H58Q52 284 52 289Z"></path></g><g data-mml-node="TeXAtom" transform="translate(572, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g></g></g></svg></span></span>的平均值。 Transformer 层的输出作为整个图像的综合表示。作者认为这是可能的，因为在每个空间位置计算的<span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{F}\left(v_{i}\right)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 2386 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 5.398ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="46" d="M199 579Q181 579 181 590Q181 598 188 611T212 639T260 666T335 682Q336 682 349 682T383 682T431 682T493 683T561 683Q776 682 784 681Q826 673 829 647Q829 620 797 600T744 580Q728 580 728 595Q729 607 713 610Q698 613 598 614H500L499 610Q499 598 467 486T428 367Q428 365 551 365H674Q683 360 684 355Q687 346 677 329Q666 312 642 299T598 285Q586 285 582 296H402L394 277Q386 258 373 229T346 167T315 102T286 51Q265 22 225 -5T133 -32Q108 -32 87 -25T54 -7T33 15T21 35T18 47Q18 60 44 80T98 103Q108 103 111 101T119 88Q130 66 150 54T179 39T195 37Q199 37 203 43Q217 67 245 125T318 300T391 532Q393 543 398 564T406 598T409 613T339 614H269Q229 579 199 579Z"></path></g></g><g data-mml-node="mrow" transform="translate(829, 0)"><g data-mml-node="mo"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="msub" transform="translate(389, 0)"><g data-mml-node="mi"><path data-c="76" d="M173 380Q173 405 154 405Q130 405 104 376T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Q21 294 29 316T53 368T97 419T160 441Q202 441 225 417T249 361Q249 344 246 335Q246 329 231 291T200 202T182 113Q182 86 187 69Q200 26 250 26Q287 26 319 60T369 139T398 222T409 277Q409 300 401 317T383 343T365 361T357 383Q357 405 376 424T417 443Q436 443 451 425T467 367Q467 340 455 284T418 159T347 40T241 -11Q177 -11 139 22Q102 54 102 117Q102 148 110 181T151 298Q173 362 173 380Z"></path></g><g data-mml-node="TeXAtom" transform="translate(485, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g><g data-mml-node="mo" transform="translate(1168, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></g></svg></span></span>已经捕获了丰富的局部语义响应，这些响应与 CLIP 文本嵌入中的标记很好地对应。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">基于这样的假设，如上图(b) 所示，作者在新尝试中直接修改 CLIP 的图像编码器：(1) <strong>删除查询和关键嵌入层</strong>； (2) <strong>将值嵌入层和最后一个线性层重新组合成两个各自的 1×1 卷积层</strong>。此外，保持文本编码器不变，它以目标类的提示作为输入。每个类的结果文本嵌入用作分类器。作者将生成的模型命名为 MaskCLIP，因为它产生像素级掩码预测，而不是全局图像级预测。然后，作者在各种标准分割基准以及网络爬取图像上评估 MaskCLIP。MaskCLIP 无需任何微调或注释即可输出合理的结果。更多关于 mIoU 指标的定性结果和定量结果包含在实验部分。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">有人可能会争辩说，由于全局注意力池是一个自注意力层，即使没有修改，它也可以生成密集的特征。然而，由于查询<span style="cursor:pointer;"><span role="presentation" data-formula="\bar{q}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -648 593.8 842" aria-hidden="true" style="vertical-align: -0.439ex;width: 1.343ex;height: 1.905ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mover"><g data-mml-node="mi" transform="translate(20, 0)"><path data-c="71" d="M33 157Q33 258 109 349T280 441Q340 441 372 389Q373 390 377 395T388 406T404 418Q438 442 450 442Q454 442 457 439T460 434Q460 425 391 149Q320 -135 320 -139Q320 -147 365 -148H390Q396 -156 396 -157T393 -175Q389 -188 383 -194H370Q339 -192 262 -192Q234 -192 211 -192T174 -192T157 -193Q143 -193 143 -185Q143 -182 145 -170Q149 -154 152 -151T172 -148Q220 -148 230 -141Q238 -136 258 -53T279 32Q279 33 272 29Q224 -10 172 -10Q117 -10 75 30T33 157ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z"></path></g><g data-mml-node="mo" transform="translate(93.8, -42)"><path data-c="AF" d="M69 544V590H430V544H69Z"></path></g></g></g></g></g></svg></span></span> 是在 CLIP 预训练期间训练的唯一查询，因此这种朴素的解决方案失败了。作者将此解决方案视为基线，并在实验中将其结果与本文的结果进行比较。此外，ViT 中的 Transformer 层与全局注意力池非常相似。实际上，仅有的两个区别是：（1）全局查询是由一个特殊的 [CLS] token生成的，而不是所有空间位置的平均值； (2) Transformer 层有残差连接。因此，通过用<span style="cursor:pointer;"><span role="presentation" data-formula="q[\mathrm{cls}]" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 2132 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 4.824ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="71" d="M33 157Q33 258 109 349T280 441Q340 441 372 389Q373 390 377 395T388 406T404 418Q438 442 450 442Q454 442 457 439T460 434Q460 425 391 149Q320 -135 320 -139Q320 -147 365 -148H390Q396 -156 396 -157T393 -175Q389 -188 383 -194H370Q339 -192 262 -192Q234 -192 211 -192T174 -192T157 -193Q143 -193 143 -185Q143 -182 145 -170Q149 -154 152 -151T172 -148Q220 -148 230 -141Q238 -136 258 -53T279 32Q279 33 272 29Q224 -10 172 -10Q117 -10 75 30T33 157ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z"></path></g><g data-mml-node="mo" transform="translate(460, 0)"><path data-c="5B" d="M118 -250V750H255V710H158V-210H255V-250H118Z"></path></g><g data-mml-node="TeXAtom" data-mjx-texclass="ORD" transform="translate(738, 0)"><g data-mml-node="mi"><path data-c="63" d="M370 305T349 305T313 320T297 358Q297 381 312 396Q317 401 317 402T307 404Q281 408 258 408Q209 408 178 376Q131 329 131 219Q131 137 162 90Q203 29 272 29Q313 29 338 55T374 117Q376 125 379 127T395 129H409Q415 123 415 120Q415 116 411 104T395 71T366 33T318 2T249 -11Q163 -11 99 53T34 214Q34 318 99 383T250 448T370 421T404 357Q404 334 387 320Z"></path></g><g data-mml-node="mi" transform="translate(444, 0)"><path data-c="6C" d="M42 46H56Q95 46 103 60V68Q103 77 103 91T103 124T104 167T104 217T104 272T104 329Q104 366 104 407T104 482T104 542T103 586T103 603Q100 622 89 628T44 637H26V660Q26 683 28 683L38 684Q48 685 67 686T104 688Q121 689 141 690T171 693T182 694H185V379Q185 62 186 60Q190 52 198 49Q219 46 247 46H263V0H255L232 1Q209 2 183 2T145 3T107 3T57 1L34 0H26V46H42Z"></path></g><g data-mml-node="mi" transform="translate(722, 0)"><path data-c="73" d="M295 316Q295 356 268 385T190 414Q154 414 128 401Q98 382 98 349Q97 344 98 336T114 312T157 287Q175 282 201 278T245 269T277 256Q294 248 310 236T342 195T359 133Q359 71 321 31T198 -10H190Q138 -10 94 26L86 19L77 10Q71 4 65 -1L54 -11H46H42Q39 -11 33 -5V74V132Q33 153 35 157T45 162H54Q66 162 70 158T75 146T82 119T101 77Q136 26 198 26Q295 26 295 104Q295 133 277 151Q257 175 194 187T111 210Q75 227 54 256T33 318Q33 357 50 384T93 424T143 442T187 447H198Q238 447 268 432L283 424L292 431Q302 440 314 448H322H326Q329 448 335 442V310L329 304H301Q295 310 295 316Z"></path></g></g><g data-mml-node="mo" transform="translate(1854, 0)"><path data-c="5D" d="M22 710V750H159V-250H22V-210H119V710H22Z"></path></g></g></g></svg></span></span>替换<span style="cursor:pointer;"><span role="presentation" data-formula="\bar{q}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -648 593.8 842" aria-hidden="true" style="vertical-align: -0.439ex;width: 1.343ex;height: 1.905ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mover"><g data-mml-node="mi" transform="translate(20, 0)"><path data-c="71" d="M33 157Q33 258 109 349T280 441Q340 441 372 389Q373 390 377 395T388 406T404 418Q438 442 450 442Q454 442 457 439T460 434Q460 425 391 149Q320 -135 320 -139Q320 -147 365 -148H390Q396 -156 396 -157T393 -175Q389 -188 383 -194H370Q339 -192 262 -192Q234 -192 211 -192T174 -192T157 -193Q143 -193 143 -185Q143 -182 145 -170Q149 -154 152 -151T172 -148Q220 -148 230 -141Q238 -136 258 -53T279 32Q279 33 272 29Q224 -10 172 -10Q117 -10 75 30T33 157ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z"></path></g><g data-mml-node="mo" transform="translate(93.8, -42)"><path data-c="AF" d="M69 544V590H430V544H69Z"></path></g></g></g></g></g></svg></span></span>并将输入 x 添加到输出中，MaskCLIP 可以与 ViT 主干一起工作。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">尽管与现有分割方法相比，MaskCLIP 很简单，但所提出的方法具有继承自 CLIP 的多个独特优点。首先，<strong>MaskCLIP 可用作自由分割标注器</strong>，为使用有限标签的分割方法提供丰富而新颖的监督信号。其次，<strong>由于在MaskCLIP中保留了CLIP的视觉语言关联，它自然具有分割开放词汇类的能力</strong>，以及由自由形式的短语描述的细粒度类，如白车和红巴士。第三，<strong>由于 CLIP 是在原始网络策划图像上训练的，因此 CLIP 对自然分布偏移和输入损坏表现出极大的鲁棒性</strong>。作者验证 MaskCLIP 在一定程度上保留了这种鲁棒性。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">为了进一步提高 MaskCLIP 的性能，作者提出了两种细化策略，即<strong>键平滑</strong>和<strong>prompt去噪</strong>。除了<span style="cursor:pointer;"><span role="presentation" data-formula="\bar{q}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -648 593.8 842" aria-hidden="true" style="vertical-align: -0.439ex;width: 1.343ex;height: 1.905ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mover"><g data-mml-node="mi" transform="translate(20, 0)"><path data-c="71" d="M33 157Q33 258 109 349T280 441Q340 441 372 389Q373 390 377 395T388 406T404 418Q438 442 450 442Q454 442 457 439T460 434Q460 425 391 149Q320 -135 320 -139Q320 -147 365 -148H390Q396 -156 396 -157T393 -175Q389 -188 383 -194H370Q339 -192 262 -192Q234 -192 211 -192T174 -192T157 -193Q143 -193 143 -185Q143 -182 145 -170Q149 -154 152 -151T172 -148Q220 -148 230 -141Q238 -136 258 -53T279 32Q279 33 272 29Q224 -10 172 -10Q117 -10 75 30T33 157ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z"></path></g><g data-mml-node="mo" transform="translate(93.8, -42)"><path data-c="AF" d="M69 544V590H430V544H69Z"></path></g></g></g></g></g></svg></span></span>，关键特征<span style="cursor:pointer;"><span role="presentation" data-formula="k_i" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -694 815 851.8" aria-hidden="true" style="vertical-align: -0.357ex;width: 1.844ex;height: 1.927ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="mi"><path data-c="6B" d="M121 647Q121 657 125 670T137 683Q138 683 209 688T282 694Q294 694 294 686Q294 679 244 477Q194 279 194 272Q213 282 223 291Q247 309 292 354T362 415Q402 442 438 442Q468 442 485 423T503 369Q503 344 496 327T477 302T456 291T438 288Q418 288 406 299T394 328Q394 353 410 369T442 390L458 393Q446 405 434 405H430Q398 402 367 380T294 316T228 255Q230 254 243 252T267 246T293 238T320 224T342 206T359 180T365 147Q365 130 360 106T354 66Q354 26 381 26Q429 26 459 145Q461 153 479 153H483Q499 153 499 144Q499 139 496 130Q455 -11 378 -11Q333 -11 305 15T277 90Q277 108 280 121T283 145Q283 167 269 183T234 206T200 217T182 220H180Q168 178 159 139T145 81T136 44T129 20T122 7T111 -2Q98 -11 83 -11Q66 -11 57 -1T48 16Q48 26 85 176T158 471L195 616Q196 629 188 632T149 637H144Q134 637 131 637T124 640T121 647Z"></path></g><g data-mml-node="mi" transform="translate(521, -150) scale(0.707)"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g></g></svg></span></span>也在CLIP预训练期间得到训练。然而，在原始的 MaskCLIP 中，<span style="cursor:pointer;"><span role="presentation" data-formula="k_i" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -694 815 851.8" aria-hidden="true" style="vertical-align: -0.357ex;width: 1.844ex;height: 1.927ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="mi"><path data-c="6B" d="M121 647Q121 657 125 670T137 683Q138 683 209 688T282 694Q294 694 294 686Q294 679 244 477Q194 279 194 272Q213 282 223 291Q247 309 292 354T362 415Q402 442 438 442Q468 442 485 423T503 369Q503 344 496 327T477 302T456 291T438 288Q418 288 406 299T394 328Q394 353 410 369T442 390L458 393Q446 405 434 405H430Q398 402 367 380T294 316T228 255Q230 254 243 252T267 246T293 238T320 224T342 206T359 180T365 147Q365 130 360 106T354 66Q354 26 381 26Q429 26 459 145Q461 153 479 153H483Q499 153 499 144Q499 139 496 130Q455 -11 378 -11Q333 -11 305 15T277 90Q277 108 280 121T283 145Q283 167 269 183T234 206T200 217T182 220H180Q168 178 159 139T145 81T136 44T129 20T122 7T111 -2Q98 -11 83 -11Q66 -11 57 -1T48 16Q48 26 85 176T158 471L195 616Q196 629 188 632T149 637H144Q134 637 131 637T124 640T121 647Z"></path></g><g data-mml-node="mi" transform="translate(521, -150) scale(0.707)"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g></g></svg></span></span>是简单地丢弃。因此，作者在这里寻求利用这些信息来改进最终输出。键特征可以看作是对应patch的描述符，因此具有相似键特征的patch应该产生相似的预测。有了这个假设，作者提出通过以下方式平滑预测：</p><span style="cursor:pointer;" data-tool="mdnice编辑器"><section role="presentation" data-formula="\operatorname{pred}{i}=\sum{j} \cos \left(\frac{k_{i}}{\left|k_{i}\right|{2}}, \frac{k{j}}{\left|k_{j}\right|{2}}\right) \operatorname{pred}{i}
" data-formula-type="block-equation" style=" text-align: center;overflow: auto; "><embed style="vertical-align: -3.006ex;width: 36.683ex;height: auto;max-width: 300% !important;" src="https://mmbiz.qpic.cn/mmbiz_svg/nibxxlib1VaPdABZfndAF7pqBlAETFPv0IrzCpaa1bytxoLV0bB8fAZGoLiajn8O99D2vTBaprN1Ub3hz0LQ4nq2L1N8kztoq9L/0?wx_fmt=svg" data-type="svg+xml"></section></span><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">此外，作者还观察到，在处理许多目标类别时，由于只有一小部分类别出现在单个图像中，其余类别实际上是干扰因素并破坏了性能。因此，作者提出了提示去噪，如果它在所有空间位置的类置信度都小于阈值 t = 0.5，则删除带有目标类的提示。</p><h2 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 22px;"><span style="display: none;"></span><span>3.4 MaskCLIP+</span><span></span></h2><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">虽然 MaskCLIP 不需要任何训练，但它的网络架构是刚性的，因为它采用了 CLIP 的图像编码器。为了从这种约束中放松它并受益于为分割量身定制的更先进的架构，例如 DeepLab和 PSPNet，作者提出了 MaskCLIP+。 MaskCLIP+ 不是直接应用 MaskCLIP 进行测试时间预测，而是将其预测视为训练时间伪真实标签。结合采用的自训练策略，MaskCLIP+ 不受其骨干架构的限制。如上图(a) 所示，作者将 DeepLabv2作为 MaskCLIP+ 的主干，以确保与以前的分割方法进行公平比较。
在 MaskCLIP+ 中，作者利用 MaskCLIP 的预测来指导另一个目标网络的训练，该目标网络包含为分割任务量身定制的架构。与目标网络并行，作者将相同的预处理图像输入提供给 MaskCLIP，并使用 MaskCLIP 的预测作为伪真实标签来训练目标网络。此外，作者将目标网络的分类器替换为 MaskCLIP 的分类器，以保留网络对开放词汇预测的能力。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">MaskCLIP 引导学习也适用于零样本分割设置。具体来说，虽然观察到可见和不可见类的像素，但只有可见类的注释可用。在这种情况下，只使用 MaskCLIP 为未标记的像素生成伪标签。与 SOTA 方法相比，MaskCLIP+ 在三个标准基准（即 PASCAL VOC 2012、PASCAL Context 和 COCO Stuff）中获得了显着更好的结果，其中 MaskCLIP+ 的结果甚至与完全-监督基线。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">作者注意到一些相关的尝试，针对目标检测，在 CLIP 的图像级视觉特征和目标模型的特征之间进行知识蒸馏。与这样的特征级指导不同，作者在本文中采用伪标签。这是因为本文的目标网络具有分段定制的架构，在结构上与 CLIP 的图像编码器不同。因此，通过特征匹配进行蒸馏可能是一种次优策略。事实上，在零样本设置下，这种特征级指导确实会导致可见类和不可见类的性能之间存在冲突。相反，通过在 MaskCLIP+ 中采用伪标签，作者没有观察到所见类的任何性能下降。</p><h1 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>4.实验</span><span></span></h1><figure data-tool="mdnice编辑器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.8142414860681114" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJ25tVuBewZibEsicodFiaHhSPAx5gQ4yI4Adukbu3VM7ZXODMXaMllNJdQ/640?wx_fmt=png" data-type="png" data-w="969" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="4" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-043408cdb67fac0c.png" data-fail="0"></figure><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">上表展示了无标注分割的实验结果。</p><figure data-tool="mdnice编辑器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.7056367432150313" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJFvibm0Ngtcr7VKTlZOWu215Po4ZdNRJOHibf6uLJu6Rk4nSfzX0wYMTQ/640?wx_fmt=png" data-type="png" data-w="958" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="5" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-17cab5338474ea3e.png" data-fail="0"></figure><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">PASCAL上的定性实验结果。</p><figure data-tool="mdnice编辑器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.5485714285714286" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJPyNqnJxcTorpGkib7JAnWsiaiaUmDtGOsOOslqh6wOUn950Xcw40ibB8DA/640?wx_fmt=png" data-type="png" data-w="1050" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="6" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-2a98c88ac4793a3d.png" data-fail="0"></figure><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">网络图片上的定性结果。</p><figure data-tool="mdnice编辑器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.7692307692307693" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJBdoIe0ru7QYApRj1znAoulURw7yBEYZjMDEGS57TU1bLDdIS29TGZA/640?wx_fmt=png" data-type="png" data-w="949" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="7" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-fee9b3d87bc9fe9c.png" data-fail="0"></figure><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">零样本分割性能。</p><figure data-tool="mdnice编辑器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.2677165354330709" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJ2qDev1mmz4uqFg6Liakqviaev6dW8unS38zxQzFXibJkCWThCicPTjm80Q/640?wx_fmt=png" data-type="png" data-w="1016" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="8" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-71e5c1e96a72ac79.png" data-fail="0"></figure><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">MaskCLIP+的消融。</p><h1 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>5. 总结</span><span></span></h1><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">本文介绍了作者在语义分割中应用 CLIP 的探索，作为研究预训练视觉语言模型在像素级密集预测任务中的适用性的早期尝试。虽然传统的微调范式无法从 CLIP 中受益，但作者发现 CLIP 的图像编码器已经具备直接作为分割模型工作的能力。由此产生的模型，称为 MaskCLIP，可以很容易地部署在各种语义分割设置上，而无需重新训练。在 MaskCLIP 的成功之上，作者进一步提出了 MaskCLIP+，它利用 MaskCLIP 为未标记的像素提供训练时间伪标签，因此可以应用于更多的分割定制架构，而不仅仅是 CLIP 的图像编码器。在标准的换能零样本分割基准上，MaskCLIP+ 显着改进了之前的 SOTA 结果。更重要的是，MaskCLIP+ 可以很容易地用于分割更具挑战性的看不见的类别，例如名人和动画角色。</p><h1 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>【技术交流】</span><span></span></h1><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">已建立深度学习公众号——<em><strong>FightingCV</strong></em>，关注于最新论文解读、基础知识巩固、学术科研交流，欢迎大家关注！！！</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">请关注<em><strong>FightingCV</strong></em>公众号，并后台回复<strong>ECCV2022</strong>即可获得ECCV中稿论文汇总列表。</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">推荐加入FightingCV<strong>交流群</strong>，每日会发送论文解析、算法和代码的干货分享，进行学术交流，加群请添加小助手wx：<strong>FightngCV666</strong>，备注：<em><strong>地区-学校（公司）-名称</strong></em></p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;"><strong>面向小白的顶会论文核心代码库：</strong><span style="color: #1e6bb8;font-weight: bold;">https://github.com/xmu-xiaoma666/External-Attention-pytorch</span><sup style="line-height: 0;color: #1e6bb8;font-weight: bold;">[3]</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;"><strong>面向小白的YOLO目标检测库：</strong><span style="color: #1e6bb8;font-weight: bold;">https://github.com/iscyy/yoloair</span><sup style="line-height: 0;color: #1e6bb8;font-weight: bold;">[4]</p><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;"><strong>面向小白的顶刊顶会的论文解析：</strong><span style="color: #1e6bb8;font-weight: bold;">https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading</span><sup style="line-height: 0;color: #1e6bb8;font-weight: bold;">[5]</p><figure data-tool="mdnice编辑器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.7062256809338522" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJaTJ0XYicThj41t4T5TDsMbSFbnkZiarsIobpibsUKo2tdMA8deJBWWJMQ/640?wx_fmt=png" data-type="png" data-w="514" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 514px !important;" data-index="9" data-origin-display="block" _width="514px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-a17a4ffbce56a5b6.png" data-fail="0"></figure><h1 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>【赠书活动】</span><span></span></h1><p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">为感谢各位老粉和新粉的支持，<strong>FightingCV公众号</strong>将在9月10日包邮送出4本<strong>《深度学习与目标检测：工具、原理与算法》</strong>来帮助大家学习，赠书对象为当日阅读榜和分享榜前两名。想要参与赠书活动的朋友，请添加小助手微信<strong>FightngCV666</strong>（备注“城市-方向-ID”），方便联系获得邮寄地址。</p><figure data-tool="mdnice编辑器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="1" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJCHTx8micgxJBW7XFScRfvl9bD03P5nXvtI1j27Z1kGpVPDQsn1W1PnQ/640?wx_fmt=png" data-type="png" data-w="1080" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="10" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-2ce35bdb8b0684f1.png" data-fail="0"></figure><h3 data-tool="mdnice编辑器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 20px;"><span style="display: block;">参考资料</span></h3><section data-tool="mdnice编辑器"><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[1] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://arxiv.org/abs/2112.01071: <em>https://arxiv.org/abs/2112.01071</em></p></span><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[2] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://github.com/chongzhou96/MaskCLIP: <em>https://github.com/chongzhou96/MaskCLIP</em></p></span><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[3] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://github.com/xmu-xiaoma666/External-Attention-pytorch: <em>https://github.com/xmu-xiaoma666/External-Attention-pytorch</em></p></span><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[4] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://github.com/iscyy/yoloair: <em>https://github.com/iscyy/yoloair</em></p></span><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[5] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading: <em>https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading</em></p></span></section></section><blockquote><p>本文使用 <a href="https://www.jianshu.com/p/5709df6fb58d" class="internal">文章同步助手</a> 同步</p></blockquote>

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,869评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,716评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,223评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,047评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,089评论 6赞 395
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,839评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,516评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,410评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,920评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,052评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,179评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,868评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,522评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,070评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,186评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,487评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,162评论 2赞 356

ECCV2022 Oral | MaskCLIP

推荐阅读更多精彩内容