论文笔记-Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

论文标题： Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation
论文地址：https://arxiv.org/pdf/2312.04265.pdf
代码：https://github.com/w1oves/Rein.git
发表于：CVPR 2024

作者起名的一些巧思：

rein 缰绳
harness 驾驭
harness vision foundation model using rein

预训练视觉模型拥有强大的能力，为了利用预训练模型的泛化能力，作者提出针对领域泛化语义分割的微调方法，叫做 rein。

Rein-core

Rein 采用的思路是在每一层之间的特征上进行增强，即在原结构的 $L_i$ 层输出上加一个 $\Delta f_i$ ，这个 $\Delta f_i$ 应该帮助预训练视觉模型连接两个 gap，一个是预训练数据和目标场景之间的 gap，另一个是预训练任务和目标任务之间的 gap。

为了计算 $\Delta f_i$ ，作者利用了一个可学习的 tokens T，与原模型输出特征 $f_i$ 相乘，经过 softmax 之后得到相似性图，再与T相乘，过程类似于做 $f_i$ 和 $T$ 的 cross attention，然后加上原特征 $f_i$ 后经过一层 MLP，得到了 $\Delta \bar{f_i}$ 。下一层的输入是原特征加上 $\Delta \bar{f_i}$ ,得到 $\Delta f_i$ ，实现了对于原特征的增强。

Rein-link

除此之外作者也在 decoder head上做了改动，在 DERT-like 的目标检测结构中，使用了 object query 来查询是否有目标以及目标的位置，作者在这里采用了 mask2former head。作者将在 backbone 中计算的 T 加入了 object query Q 的计算。

具体来说就是对于每一层的 $T_i$ 经过一个 MLP 后得到每一层的 $Q_i$ ，用所有层的 Q 计算 $Q_max$ , $Q_avg$ ,然后将 $Q, Q_max, Q_avg$ concat在一起，经过MLP，得到查询的 Q。