计算机视觉中的attention 机制

SENET 是通道上的attention机制,第二个是空间上的注意力机制,原理相同,大同小异。

1 SENET

Squeeze-and-Excitation Networks

S-E Block

这篇文章主要讲的是channel attention,通过给每个通道学习一个权重,乘以原feature map, 以表达对不同通道对结果的影响区别。
S-E Block 分为两个阶段:
Squeeze:Global Information Embedding
w×h×c feature map 通过global average pooling 得到 w×h×1的 feature map
Excitation: Adaptive Recalibration
如下图所示:
通过两层瓶颈结构的全连接层,第一层接Relu,第二层接Sigmoid,最后Scale,就是乘以原始输入。


2 SPATIAL ATTENTION MODULE

w×h×c 的feature map 通过在通道方向上的average pooling ,得到 w×h×1 的feature map 。通过7×7 卷积得到w×h×1 的feature map,以学习在空间上的权重最后乘以原始输入。
这点就跟人眼看物体很像,只会重点集中在一部分区域,而不会将注意力分散到全图。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容