14、SKAttention模块
论文《Selective Kernel Networks》
1、作用
SK卷积可以根据输入特征的不同部分自适应地调整其感受野,这使得网络能够更加灵活地捕捉到不同尺度的信息。在图像分类、目标检测和语义分割等视觉任务中,通过这种方式提高了模型的表达能力和泛化能力。
2、机制
SKNets引入了一种新颖的“选择性核”(SK)卷积技术,该技术通过动态调整卷积核的大小来适应不同的感受野需求。它通过混合不同尺寸的卷积核输出来实现,具体方法是先对输入特征图使用不同尺寸的卷积核进行处理,然后通过一个注意力机制动态地选择不同卷积核的输出组合。
3、独特优势
1、自适应感受野:
SK卷积通过动态选择卷积核尺寸,使网络能够根据图像内容的不同自动调整其感受野大小,有效捕捉到多尺度信息。
2、注意力机制引导的选择:
通过注意力机制对不同尺寸卷积核的输出进行加权组合,能够使网络聚焦于更加重要的特征,提高了特征的表达效率。
3、增强模型泛化能力:
由于能够捕捉到更丰富的尺度信息,SKNets在多个视觉任务上展示了优于传统卷积网络的性能,增强了模型的泛化能力。
4、代码
import torch.nn as nn
import torch
class SKConv(nn.Module):
def __init__(self, in_ch, M=3, G=1, r=4, stride=1, L=32) -> None:
super().__init__()
# 初始化SKConv模块
# in_ch: 输入通道数
# M: 分支数量
# G: 卷积组数
# r: 用于计算d的比率,d用于确定Z向量的长度
# stride: 步长,默认为1
# L: 论文中向量Z的最小维度,默认为32
d = max(int(in_ch/r), L) # 计算d的值,确保d不小于L,以免信息损失
self.M = M # 分支数量
self.in_ch = in_ch # 输入通道数
self.convs = nn.ModuleList([]) # 存储不同分支的卷积操作
for i in range(M):
# 为每个分支添加卷积层,卷积核大小随i增加而增加
self.convs.append(
nn.Sequential(
nn.Conv2d(in_ch, in_ch, kernel_size=3+i*2, stride=stride, padding=1+i, groups=G),
nn.BatchNorm2d(in_ch),
nn.ReLU(inplace=True)
)
)
self.fc = nn.Linear(in_ch, d) # 一个全连接层,将特征图平均后的特征降维到d
self.fcs = nn.ModuleList([]) # 存储每个分支的全连接层,用于生成注意力向量
for i in range(M):
self.fcs.append(nn.Linear(d, in_ch))
self.softmax = nn.Softmax(dim=1) # Softmax激活,用于归一化注意力向量
def forward(self, x):
# 前向传播函数
feas = None
for i, conv in enumerate(self.convs):
# 对输入x应用每个分支的卷积操作
fea = conv(x).unsqueeze_(dim=1)
if i == 0:
feas = fea
else:
# 将不同分支的特征图拼接在一起
feas = torch.cat([feas, fea], dim=1)
# 将所有分支的特征图相加,得到一个统一的特征图fea_U
fea_U = torch.sum(feas, dim=1)
# 对fea_U进行全局平均池化,得到特征向量fea_s
fea_s = fea_U.mean(-1).mean(-1)
# 通过全连接层fc将fea_s映射到向量fea_z
fea_z = self.fc(fea_s)
attention_vectors = None
for i, fc in enumerate(self.fcs):
# 为每个分支生成注意力向量
vector = fc(fea_z).unsqueeze_(dim=1)
if i == 0:
attention_vectors = vector
else:
# 将不同分支的注意力向量拼接在一起
attention_vectors = torch.cat([attention_vectors, vector], dim=1)
# 对注意力向量应用Softmax激活,进行归一化处理
attention_vectors = self.softmax(attention_vectors).unsqueeze(-1).unsqueeze(-1)
# 将注意力向量应用于拼接后的特征图feas,通过加权求和得到最终的输出特征图fea_v
fea_v = (feas * attention_vectors).sum(dim=1)
return fea_v
if __name__ == "__main__":
x = torch.randn(16, 64, 256, 256)
sk = SKConv(in_ch=64, M=3, G=1, r=2)
out = sk(x)
print(out.shape)
# in_ch 数据输入维度,M为分指数,G为Conv2d层的组数,基本设置为1,r用来进行求线性层输出通道的。