本文不考虑基于GAN的超分辨率模型
近年超分辨率的发展
2018年提出的EDSR已经使得超分辨率方法有了很好的处理效果,近几年在超分辨率领域没有出现极具创新性的网络模型,大多数都是在EDSR等经典超分辨率模型的基础上,针对模型存在的不足进行一定程度的创新。
例如,为解决放大尺度单一的问题,Hu等人提出了Meta-SR模型,该模型能够以任意放大尺度对图像进行变换,且能连续放大图像。Menon等人提出了一种将生成的高分辨率图像降采样后与低分辨率图像匹配以确定高分辨率图像的方法。为避免卷积中的乘法运算,Song等人提出了加法网络(AdderNet)来解决超分辨率问题。
另一方面,目前注意力(Attention)机制在计算机视觉上的应用,使得网络能够具有更好的性能。自然地,在图像超分辨率领域,基于注意力机制的模型也取得了较EDSR明显的提升。自2018年以来,基于注意力机制的方法带给该领域更多的可能。
计算机视觉的注意力机制
注意力机制首先应用于NLP领域,取得了很好的成绩,并广泛应用。对于CV领域的注意力机制,本质与NLP领域的注意力机制是相同的,但实现方法是有本质不同的,毕竟NLP研究的是文本,而CV则是图像、视频等。在CV领域经典的注意力机制包括通道注意力(Channel Attention,CA)和空间注意力(Spatial Attention,SA),这两种注意力可以单独使用,也可同时使用(串行或并行)。其中,通道注意力关注的是不同通道的特征对于重建图像的贡献度,而空间注意力则是关注同一通道下,不同像素区域的特征对于重建图像的贡献度。
在计算机视觉的各个子领域都可以尝试添加注意力模块,以增强原有模型的性能。如在图像分类领域,有CBAM模型;还有很多学者专注于研究注意力模块的实现,而baseline选择ResNet,有EPSANet模型,SA-Net模型等。大量的注意力模块的研究都是基于高阶(high-level)的视觉问题,因此在超分辨率这样的低阶(low-level)问题上则有一定的差异,即同一注意力模块在低/高阶问题上的表现可能是有一定差异的。原因在于,高阶问题关注于图像的语义,而低阶问题则是关注图像中的各个像素值。因此,同样的注意力模块在不同的问题上的表现是值得尝试的。
基于注意力机制的超分辨率方法
2018年,第一个基于注意力机制的超分辨率模型RCAN发表于ECCV,该模型的使用的注意力机制与SENet无异,其贡献主要在于将注意力机制应用于超分辨率中,并用注意力的方式解释该方法。RCAN中仅使用了通道注意力(Channel Attention,CA)作为该模型的注意力模块,其余部分与EDSR相同。而从结果可以看出,一个简单的通道注意力的加持,使得该模型较EDSR模型有0.1~0.4 dB以上的提升。证明了注意力机制能够给超分辨率方法带来显著的提升,故此后有越来越多的文章研究基于注意力机制的超分辨率方法。
2019年的SAN模型,2020年的HAN模型,2021年的CRAN模型等等都进一步拓展注意力的实现方式,大部分学者都致力于研究一个更复杂的注意力机制,使得在PSNR、SSIM等指标相较原有的SOTA模型有些许提升。然而随着注意力方法变得越来越复杂,带来的后果就是对硬件要求越来越高,计算量越来越大。鉴于这种背景,也有一部分学者致力于研究轻量型的网络,保证在网络训练时间短的情况下,具有不差的表现,例如2020年的PAN模型和2021年的A²N模型,这些模型的表现略低于EDSR,但在参数量、训练时间方面,却远优于目前提出的绝大部分模型。
目前注意力机制在超分辨率方法上的困境在于,近几年复杂的注意力模块所取得的效果与RCAN的效果相差不大,基本都在0.1 dB以内,而其计算量和复杂程度则是肉眼可见的上升。传统的通道注意力和空间注意力已经满足不了更高性能的网络表现,为进一步提高网络表现,近几年提出了Pixel Attention,Sparse Attention等新的注意力机制,运用其他交叉学科的知识改进现有的注意力机制,如CRAN、DFSA、EACRN等。这些新颖的注意力机制确实能赋予超分辨率方法更好的性能,但是却存在较大的边际效益。
相关文献
[1] RCAN
[2] SAN
[3] HAN
[4] CRAN
[5] PAN
[6] A²N
[7] DFSA
[8] EACRN