这是CVPR2018年的论文。
论文有开源的代码:https://github.com/cszn/SRMD
同时机器之心有相应的中文版介绍:https://www.jiqizhixin.com/articles/051301
文章针对目前的用于超分辨率重建的LR图像数据对主要是通过对HR的图像进行下采样得到的,作者认为这样不符合实际。利用这样的训练集训练得到的网络仅适用这样的degradation,如果实际的degradation不符合这样的假设将会引入噪声等,效果不好。同时这样训练得到的模型不能处理multiple degradations。
下面看文章吧吧!
摘要:
文章提出一种维度拉伸策略使得单个卷积超分辨率网络能够将SISR退化过程的两个关键因素(模糊核和噪声水平)作为网络输入。【我认为这篇文章主要的创新点在于其考虑了下采样这个问题与实际的符合度,要有一个好的模型首先要有合适的数据集吧吧。然后文章的维度拉伸策略就是作者提出的主要方法啦】
1.引言:
首先是LR和HR图像的关系啦:
公式的意思是这样的HR图像x经过模糊核k的作用下采样后加上一定的噪声得到LR图像y。
文章主要解决的问题:是否可以设计一个非盲超分辨率(non-blind SISR)模型用以解决不同的图像退化类型?
2. 相关工作
就不说啦~
3.方法
首先分析了在最大后验(MAP)下的SISR方法。
公式前半部分为似然(数据保真)项,后半部分权衡先验。所以x的求解为:
通过上述分析可以得出非盲 SISR 应该将退化模型中的模糊核和噪声水平也作为网络的输入。然而 LR 图像、模糊核和噪声水平三者的维度是不同的,因此不能直接作为 CNN 的输入。为此本文提出了一种维度拉伸策略。假设LR图像大小为WxH,首先将向量化的模糊核 PCA 降维,然后和噪声水平并在一起得到一个t+1维的向量 v,接着将v拉伸为WxHx(t+1)维的张量,我们将此张量称之为退化图(Degradation Maps),其中第i个图的所有WxH元素均为vi。【我觉得就是向量v复制了WxH遍】
至此,我们可以将退化图和 LR 图像合并在一起作为 CNN 的输入。为了证明此策略的有效性,选取了快速有效的 ESPCN 超分辨网络结构框架。值得注意的是为了加速训练过程的收敛速度,同时考虑到 LR 图像中包含高斯噪声,因此网络中加入了 Batch Normalization 层【在很多超分的深度网络结构中未来保持细节特征等原因都不加BN层】。
网络结构:
4.实验
SRMD 比较了不同方法在同为 bicubic 降采样退化下的 PSNR 和 SSIM 结果,可以看出虽然 SRMD 是用来处理各种不同的退化类型,但是仍然在 bicubic 降采样退化下取得不错的效果。需要指出的是 SRMD 在速度上也有很大的优势。
同时,作者也做了不同退化类型下、非均匀退化、真实图像上的实验。
5.总结
提出了一种简单、有效、可扩展的超分辨率模型,其不仅可以处理 bicubic降采样退化模型,并且可以处理多个甚至是退化空间不均匀的退化类型,为 SISR 实际应用提供了一种解决方案。
提出了一种简单有效的维度拉伸策略使得卷积神经网络可以处理维度不同的输入,此策略可以扩展到其他应用。
通过实验展示了用合成图像训练得到的超分辨网络模型可以有效的处理真实图像复杂的退化类型。
我觉得疑惑的地方主要是维度拉伸策略中将v拉伸为WxHx(t+1)维这部分,希望有自己理解的小伙伴们可以评论讨论呀~
最近要开始好好看paper了,大家一起加油呀~
文章若有不好的地方,欢迎留言。