1、SE Net模块
论文《Squeeze-and-Excitation Networks》
1、作用
SENet通过引入一个新的结构单元——“Squeeze-and-Excitation”(SE)块——来增强卷积神经网络的代表能力。是提高卷积神经网络(CNN)的表征能力,通过显式地建模卷积特征通道之间的依赖关系,从而在几乎不增加计算成本的情况下显著提升网络性能。SE模块由两个主要操作组成:压缩(Squeeze)和激励(Excitation)
2、机制
1、压缩操作:
SE模块首先通过全局平均池化操作对输入特征图的空间维度(高度H和宽度W)进行聚合,为每个通道生成一个通道描述符。这一步有效地将全局空间信息压缩成一个通道向量,捕获了通道特征响应的全局分布。这一全局信息对于接下来的重新校准过程至关重要。
2、激励操作:
在压缩步骤之后,应用一个激励机制,该机制本质上是由两个全连接(FC)层和一个非线性激活函数(通常是sigmoid)组成的自门控机制。第一个FC层降低了通道描述符的维度,应用ReLU非线性激活,随后第二个FC层将其投影回原始通道维度。这个过程建模了通道间的非线性交互,并产生了一组通道权重。
3、特征重新校准:
激励操作的输出用于重新校准原始输入特征图。输入特征图的每个通道都由激励输出中对应的标量进行缩放。这一步骤有选择地强调信息丰富的特征,同时抑制不太有用的特征,使模型能够专注于任务中最相关的特征。
3、独特优势
1、通道间依赖的显式建模:
SE Net的核心贡献是通过SE块显式建模通道间的依赖关系,有效地提升了网络对不同通道特征重要性的适应性和敏感性。这种方法允许网络学会动态地调整各个通道的特征响应,以增强有用的特征并抑制不那么重要的特征。
2、轻量级且高效:
尽管SE块为网络引入了额外的计算,但其设计非常高效,额外的参数量和计算量相对较小。这意味着SENet可以在几乎不影响模型大小和推理速度的情况下,显著提升模型性能。
3、模块化和灵活性:
SE块可以视为一个模块,轻松插入到现有CNN架构中的任何位置,包括ResNet、Inception和VGG等流行模型。这种模块化设计提供了极大的灵活性,使得SENet可以广泛应用于各种架构和任务中,无需对原始网络架构进行大幅度修改。
4、跨任务和跨数据集的泛化能力:
SENet在多个基准数据集上展现出了优异的性能,包括图像分类、目标检测和语义分割等多个视觉任务。这表明SE块不仅能提升特定任务的性能,还具有良好的泛化能力,能够跨任务和跨数据集提升模型的效果。
5、增强的特征表征能力:
通过调整通道特征的重要性,SENet能够更有效地利用模型的特征表征能力。这种增强的表征能力使得模型能够在更细粒度上理解图像内容,从而提高决策的准确性和鲁棒性。
4、代码:
import numpy as np
import torch
from torch import nn
from torch.nn import init
class SEAttention(nn.Module):
# 初始化SE模块,channel为通道数,reduction为降维比率
def __init__(self, channel=512, reduction=16):
super().__init__()
self.avg_pool = nn.AdaptiveAvgPool2d(1) # 自适应平均池化层,将特征图的空间维度压缩为1x1
self.fc = nn.Sequential( # 定义两个全连接层作为激励操作,通过降维和升维调整通道重要性
nn.Linear(channel, channel // reduction, bias=False), # 降维,减少参数数量和计算量
nn.ReLU(inplace=True), # ReLU激活函数,引入非线性
nn.Linear(channel // reduction, channel, bias=False), # 升维,恢复到原始通道数
nn.Sigmoid() # Sigmoid激活函数,输出每个通道的重要性系数
)
# 权重初始化方法
def init_weights(self):
for m in self.modules(): # 遍历模块中的所有子模块
if isinstance(m, nn.Conv2d): # 对于卷积层
init.kaiming_normal_(m.weight, mode='fan_out') # 使用Kaiming初始化方法初始化权重
if m.bias is not None:
init.constant_(m.bias, 0) # 如果有偏置项,则初始化为0
elif isinstance(m, nn.BatchNorm2d): # 对于批归一化层
init.constant_(m.weight, 1) # 权重初始化为1
init.constant_(m.bias, 0) # 偏置初始化为0
elif isinstance(m, nn.Linear): # 对于全连接层
init.normal_(m.weight, std=0.001) # 权重使用正态分布初始化
if m.bias is not None:
init.constant_(m.bias, 0) # 偏置初始化为0
# 前向传播方法
def forward(self, x):
b, c, _, _ = x.size() # 获取输入x的批量大小b和通道数c
y = self.avg_pool(x).view(b, c) # 通过自适应平均池化层后,调整形状以匹配全连接层的输入
y = self.fc(y).view(b, c, 1, 1) # 通过全连接层计算通道重要性,调整形状以匹配原始特征图的形状
return x * y.expand_as(x) # 将通道重要性系数应用到原始特征图上,进行特征重新校准
# 示例使用
if __name__ == '__main__':
input = torch.randn(50, 512, 7, 7) # 随机生成一个输入特征图
se = SEAttention(channel=512, reduction=8) # 实例化SE模块,设置降维比率为8
output = se(input) # 将输入特征图通过SE模块进行处理
print(output.shape) # 打印处理后的特征图形状,验证SE模块的作用