深度学习模块15-SKAttention模块

14、SKAttention模块

论文《Selective Kernel Networks》

1、作用

SK卷积可以根据输入特征的不同部分自适应地调整其感受野,这使得网络能够更加灵活地捕捉到不同尺度的信息。在图像分类、目标检测和语义分割等视觉任务中,通过这种方式提高了模型的表达能力和泛化能力。

2、机制

SKNets引入了一种新颖的“选择性核”(SK)卷积技术,该技术通过动态调整卷积核的大小来适应不同的感受野需求。它通过混合不同尺寸的卷积核输出来实现,具体方法是先对输入特征图使用不同尺寸的卷积核进行处理,然后通过一个注意力机制动态地选择不同卷积核的输出组合。

3、独特优势

1、自适应感受野:

SK卷积通过动态选择卷积核尺寸,使网络能够根据图像内容的不同自动调整其感受野大小,有效捕捉到多尺度信息。

2、注意力机制引导的选择:

通过注意力机制对不同尺寸卷积核的输出进行加权组合,能够使网络聚焦于更加重要的特征,提高了特征的表达效率。

3、增强模型泛化能力:

由于能够捕捉到更丰富的尺度信息,SKNets在多个视觉任务上展示了优于传统卷积网络的性能,增强了模型的泛化能力。

4、代码

import torch.nn as nn
import torch

class SKConv(nn.Module):
    def __init__(self, in_ch, M=3, G=1, r=4, stride=1, L=32) -> None:
        super().__init__()
        # 初始化SKConv模块
        # in_ch: 输入通道数
        # M: 分支数量
        # G: 卷积组数
        # r: 用于计算d的比率,d用于确定Z向量的长度
        # stride: 步长,默认为1
        # L: 论文中向量Z的最小维度,默认为32
        d = max(int(in_ch/r), L)  # 计算d的值,确保d不小于L,以免信息损失
        self.M = M  # 分支数量
        self.in_ch = in_ch  # 输入通道数
        self.convs = nn.ModuleList([])  # 存储不同分支的卷积操作
        for i in range(M):
            # 为每个分支添加卷积层,卷积核大小随i增加而增加
            self.convs.append(
                nn.Sequential(
                nn.Conv2d(in_ch, in_ch, kernel_size=3+i*2, stride=stride, padding=1+i, groups=G),
                nn.BatchNorm2d(in_ch),
                nn.ReLU(inplace=True)
                )
            )
        self.fc = nn.Linear(in_ch, d)  # 一个全连接层,将特征图平均后的特征降维到d
        self.fcs = nn.ModuleList([])  # 存储每个分支的全连接层,用于生成注意力向量
        for i in range(M):
            self.fcs.append(nn.Linear(d, in_ch))
        self.softmax = nn.Softmax(dim=1)  # Softmax激活,用于归一化注意力向量

    def forward(self, x):
        # 前向传播函数
        feas = None
        for i, conv in enumerate(self.convs):
            # 对输入x应用每个分支的卷积操作
            fea = conv(x).unsqueeze_(dim=1)
            if i == 0:
                feas = fea
            else:
                # 将不同分支的特征图拼接在一起
                feas = torch.cat([feas, fea], dim=1)
        # 将所有分支的特征图相加,得到一个统一的特征图fea_U
        fea_U = torch.sum(feas, dim=1)
        # 对fea_U进行全局平均池化,得到特征向量fea_s
        fea_s = fea_U.mean(-1).mean(-1)
        # 通过全连接层fc将fea_s映射到向量fea_z
        fea_z = self.fc(fea_s)
        attention_vectors = None
        for i, fc in enumerate(self.fcs):
            # 为每个分支生成注意力向量
            vector = fc(fea_z).unsqueeze_(dim=1)
            if i == 0:
                attention_vectors = vector
            else:
                # 将不同分支的注意力向量拼接在一起
                attention_vectors = torch.cat([attention_vectors, vector], dim=1)
        # 对注意力向量应用Softmax激活,进行归一化处理
        attention_vectors = self.softmax(attention_vectors).unsqueeze(-1).unsqueeze(-1)
        # 将注意力向量应用于拼接后的特征图feas,通过加权求和得到最终的输出特征图fea_v
        fea_v = (feas * attention_vectors).sum(dim=1)
        return fea_v



if __name__ == "__main__":
    x = torch.randn(16, 64, 256, 256)
    sk = SKConv(in_ch=64, M=3, G=1, r=2)
    out = sk(x)
    print(out.shape)
    # in_ch 数据输入维度,M为分指数,G为Conv2d层的组数,基本设置为1,r用来进行求线性层输出通道的。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容