Swin Transformer

1、motivation

CNN的优势是平移不变、尺度不变、层次感受野；

transformer应用到CV的优势全局的感受野（计算量很大），可实现平移不变，但无法做到尺度不变，猜测这也是DETR对小目标检测效果不太好的原因。

鉴于以上分析，Swin transformer (Shifted window transformer, 暂且简称SWTR)构造了层次结构网络、window multi-head self-attention，构造新的CV backbone。

SWTR与ViT的对比：

1、ViT是固定的感受野；SWTR构建层次结构，感受野逐层增大。

2、ViT是全局multi-head self-attention (MSA)；SWTR是Windows内部的MSA。

2、网络结构

输入图像：[H, W, 3]

2.1 patch partition

将原始图像切分为4*4的patch，feature dimension变为4*4*3=48，得到feature size [H/4, W/4, 48]

实际代码中采用conv2d(kernal_size=4, stride=4)实现

将每个patch看作token，长度为H/4*W/4的patch序列即可作为经典transformer的标准输入

2.2 linear embedding

乘以嵌入矩阵后patch/token序列size变为[H/4*W/4, C]

2.3 Swin Transformer Block

Swin Transformer Block = Window MSA (W-MSA) + Shift Window MSA (SW-MSA) + LN + MLP + short-cut

整体结构基本和transformer encoder一致，MSA替换为W-MSA和SW-MSA

2.4 Deeper Stage = patch merging + Swin Transformer Block

patch merging

作用和CNN的conv2d(stride=2)或pooling(stride=2)一致，完成feature的下采样，效果如图。

3、attention

3.1 Window Partition/Reverse

假设原始的feature size为[H1, W1, C1]

reshape分窗口后size为[H1*W1/(window_size*window_size), window_size, window_size, C1]

reverse即上述过程反向操作。

3.2 window attention

与标准transformer的self attention基本一致，区别是增加了相对位置编码B

3.3 shifted window

在均分2*2 window的基础上增加3*3 shift window，打破固定的感受野，每个block内实现感受野的交叉，提升信息交流融合。

但是3*3 shift window的size不一样大，无法batch并行处理，因此对3*3 shift window进行特征图位移cyclic shift，位移后3*3变为2*2大小，然后按照window attetion的计算方式，再执行特征图反向位移reverse cyclic shift，得到shift window attention结果。