SENET 是通道上的attention机制,第二个是空间上的注意力机制,原理相同,大同小异。
1 SENET
Squeeze-and-Excitation Networks
S-E Block
这篇文章主要讲的是channel attention,通过给每个通道学习一个权重,乘以原feature map, 以表达对不同通道对结果的影响区别。
S-E Block 分为两个阶段:
Squeeze:Global Information Embedding
w×h×c feature map 通过global average pooling 得到 w×h×1的 feature map
Excitation: Adaptive Recalibration
如下图所示:
通过两层瓶颈结构的全连接层,第一层接Relu,第二层接Sigmoid,最后Scale,就是乘以原始输入。
2 SPATIAL ATTENTION MODULE
w×h×c 的feature map 通过在通道方向上的average pooling ,得到 w×h×1 的feature map 。通过7×7 卷积得到w×h×1 的feature map,以学习在空间上的权重最后乘以原始输入。
这点就跟人眼看物体很像,只会重点集中在一部分区域,而不会将注意力分散到全图。