Squeeze-and-Excitation Networks 笔记

1. 前言

在这篇论文中，作者调查了模型设计中稍微不同的一方面：通道之间的关系。目标是为了通过显示地对通道之间卷积特征的依赖关系进行建模，来提高网络的表达能力。作者提出了一种机制，允许网络进行特征校准(feature recalibration)。通过它，来更多地关注信息丰富的特征，抑制信息少的特征。

2. 模型

block 结构

如上图是一个基本的SE的block。对于任意给定的一个转换：

\textbf{F}_{tr}:\textbf{X} \rightarrow \textbf{U}, \textbf{X} \in R^{H' * W'*C'}, \textbf{U} \in R^{H*W*C}

，都可以按照如下方式进行特征校准：

特征 $\textbf{U}$ 首先经过一个squeeze操作，该操作通过在空间维度 $H * W$ 上进行映射，产生特征描述。这个特征描述，包含了每个通道特征相应的分布情况。
通道描述接着经过一个excitation操作，该操作相当于一个门的机制，它产生每个通道的权重。

作者认为，在网络的不同深度，SE block会扮演不同的角色。在比较浅的层，作者认为SE是作用在对类别信息一无所知的情况下，因此，它能够支持那些底层特征。在比较高的层，SE越来越趋向于class-specific。

3. SE Blocks

Squeeze-and-Excitation block。像前面所说，SE block可以应用在任何转换上。论文中，那卷积操作作为例子。 $\textbf{F}_{tr}$ 表示卷积操作， $\textbf{V} = [v_1, v_2, v_3...,v_C]$ 表示卷积的核，那么 $\textbf{F}_{tr}$ 的输出 $\textbf{U}=[u_1, u_2, ..., u_C]$ 可以表示为：

卷积

Squeeze：Global Information Embedding：作者将squeeze视为对全局信息的embedding，我们知道在卷积操作中，每一个filter都操作在一个区域中，是无法利用其他区域的信息。因此，作者使用了global average pooling来产生每个通道的统计信息。如下图：