我的博客: 菱歌's Blog | 听见美好
笔记原文地址:论文阅读笔记(1):注意力机制用于图像超分辨两篇
Image Super-Resolution Using Very Deep Residual Channel Attention Networks
这是一篇来自ECCV2018的文章,任务目标还是利用深度残差网络(deep residual network)来实现图像超分辨,提出的网络叫residual channel attention network (RCAN)。
主要贡献有两点:
- 提出了一个residual in residual (RIR)的结构使更深的网络可以被很好的训练(over 400 layers)
- 提出了一个channel attention (CA) mechanism的注意力机制更好地学习图像的高频成分
简介
在Introduction里作者提到很多经典的超分辨网络,比如SRCNN,VDSR,DRCN,EDSR等等,他们一个重要演进方向就是网络越来越深(呵呵呵...),所以如何训练更深的网络就是一个挑战。同时这些网络有一个共同问题:对于高、低频信息是同样(重要程度)处理的。
相关工作
主要两部分内容:Deep CNN for SR和Attention mechanism,前一个没什么可说的。而对于注意力机制,作者将其作用解释为将资源分配偏向于输入中信息量更大的部分,而在超分辨任务中,高频通道(特征)就有更多的信息量。
残差通道注意力网络
网络结构

这部分实在是没什么特点,和其他的超分辨网络没什么本质区别。有几个小点需要注意:
- long skip通路上传的不是(插值后的)图片,而是浅层特征(经过一层卷积)。这与其他超分辨网络一样。
- loss function用的L1,可能就是拍脑袋或者调参试出来的吧
Residual in Residual
这部分结构虽然号称是一个创新点,但是个人感觉也和其他超分辨网络没区别= =||。提到的几个改进包括:
- 加入long skip connection 
- 加入short skip connection 
这一项应该是与注意力相关?除此以外个人感觉这和残差网络的思想没什么本质区别...
通道注意力

注意力产生主要包括以下几个步骤:
- 获取global spatial information,即,使用global average pooling。 
 
- 通过激活函数降维再升维,其中为ReLU, 为sigmoid,这里为什么要先降再升作者没有明确说明,可能还是借鉴Encoder-Decoder结构吧。 
 
参数
- G = 10 in RIR
- RCAB number = 20
- kernel size = 3*3, down/up-scaling kernel size = 1*1
- filter num = 64, down-scaling filter = 
- ESPCNN to upscale
结果

大约有0.1xdB左右的性能提升。看着比较微弱,所以作者还另外通过一些图片细节对比说明性能提升。
An Attention-Based Approach for Single Image Super Resolution
和上一篇类似的观点,这篇文章作者认为对于图像里的光滑区域和纹理区域需要区别对待,纹理区域有很多的高频信息。不同之处在于:
- 上文的注意力是channel-wise的,认为高低频的信息蕴含在不同的channel(特征)里
- 而本文则可以认为是pixel-wise的,直接将注意力应用于空间位置上。
文章的Introduction、Motivation与上文类似,略去不表,作者提出的文章贡献主要包括两点:
- 应用了注意力机制进行超分辨
- 提出了DenseRes模块组合高低频信息
方法
网络结构

与常见的残差超分辨结构并无太大差别,注意在DenseRes Block中有比较密集的short connection。
注意力网络
注意力网络为上图的下半部分,需要注意的是注意力网络的输入也是Bicubic插值后的图片,同样有Dense Block中的short connection和整个结构内的long connection。

注意力mask的可视化结果确实显示在边缘、纹理区域mask权重比较高。
参数
- input size = 48*48
- filter size = 3*3
- Xavier initialization
- ReLU Activation
- pooling size = 2*2 with stride=2
- deconvolution for upsampling
- 4 ResBlock in DenseRes and use 6 DenseRes blocks
结果

略有效果,而和其他state-of-the-art methods的对比也是有大约0.1-1.6个dB的提高。
总结
两篇文章都是在超分辨任务中加入注意力机制,不同的是一篇是基于channel的注意力,另一篇则是针对pixel(spatial)的。而两篇文章的网络基础和许多改进思想都是残差网络,总的来说性能提升到了一定瓶颈了提升起来确实很困难。
另外,个人感觉该机制比较适合捕捉纹理区域,如果图像大多比较平滑,则效果就不显著了,作者在进行性能对比的时候也多用一些纹理细节结构比较丰富的图片。