原文标题:Image super-resolution: The techniques, applications, and future
发布于:Signal Processing 128 (2016) 389–408
期刊网址:www.elsevier.com/locate/sigpro
原文网址:https://www.sciencedirect.com/science/article/pii/S0165168416300536?via%3Dihub
原文作者:Linwei Yue a, Huanfeng Shen b,c,*, Jie Li a, Qiangqiang Yuan c,d, Hongyan Zhang a,c, Liangpei Zhang a,c,*
a The State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan, PR China
b School of Resource and Environmental Science, Wuhan University, Wuhan, PR China
c Collaborative Innovation Center of Geospatial Technology, Wuhan University, Wuhan, PR China
d School of Geodesy and Geomatics, Wuhan University, Wuhan, PR China
文章信息:
文章历史:2015年10月8日收稿、2016年3月1日收到修订稿、2016年5月1日接受稿件、2016年5月14日发表
关键词:Super resolution, Resolution enhancement, Regularized framework, Applications
摘要:超分辨率(SR)技术从观察到的LR图像重建更高分辨率的图像或序列。由于SR已经发展了三十多年,因此多帧和单帧SR在我们的日常生活中具有重要的应用。本文旨在从技术和应用的角度对SR进行综述,特别是近年来的主要贡献。规范化的SR方法在过去十年中最常用。本文讨论了技术细节,包括重建模型,参数选择方法,优化算法和加速策略。此外,还介绍了使用SR技术的当前应用的详尽摘要。最后,文章讨论了当前未来研究的障碍。
1. 引言
图像空间分辨率是指传感器观察或测量最小物体的能力,这取决于像素大小。作为二维信号记录,在大多数应用中总是需要具有更高分辨率的数字图像。在过去的几十年中,成像技术得到了迅速发展,并且分辨率达到了一个新的水平。因此问题是:仍需要图像分辨率增强技术吗?
事实是,尽管近年来高清显示器达到了一个新的水平(例如,HDTV为1920*1080,某些超高清电视为3840*2160,某些移动设备为2048*1536),但对于分辨率提升的需求在许多应用中都不容忽视[1]。例如,为了保证记录设备的长期稳定运行,以及动态场景的适当帧速率,数字监控产品往往在某种程度上牺牲了分辨率。遥感领域也存在类似的情况:在空间,光谱和时间分辨率之间总是存在权衡。对于医学成像,在每种成像模态中,特定的物理定律受到控制,定义了噪声的含义和成像过程的灵敏度。如何在降低辐射水平的同时用高分辨率图像提取人体结构的三维模型仍然是一个挑战[2,3]。
基于这些事实,目前的技术还不能满足要求。因此,仍需要提高分辨率,尤其是在视频监控、医疗诊断和遥感应用等领域。考虑到通过“硬件”技术提高分辨率的高成本和限制,特别是对于大规模成像设备,已知为超分辨率(SR)的信号处理方法已成为获得高分辨率(HR)图片的潜在方式。使用SR方法,我们可以超越低分辨率(LR)观察的限制,而无需改进硬件设备。
SR是一种从观察到的LR图像重建更高分辨率图像或序列的技术。从技术上讲,SR可以根据输入LR信息分类为多帧或单帧[4-8]。如果可以获取具有子像素未对准的相同场景的多个图像,则可以利用它们之间的互补信息来重建更高分辨率的图像或图像序列,如图1所示。 然而,多个LR图像有时可能无法用于重建,因此我们需要使用有限的LR信息来恢复HR图像,其被定义为单帧SR [9-12]。
2. 技术背景
如今,电荷耦合器件(CCD)和互补金属氧化物半导体(CMOS)是最广泛使用的图像传感器[4,18]。为了获得HR图像,解决方案之一是开发更先进的光学设备。由于空间分辨率由CCD阵列和光学透镜控制,因此减小像素尺寸是增加空间分辨率的最直接方法之一。然而,随着像素尺寸减小,可用光量也减少,并且图像质量因散粒噪声而严重劣化。此外,非矩形像素布局,如六角形Fujifilm超级CCD和正交传输CCD [18,19],已被用于提高空间采样率,如图2所示。其他方法包括增加焦距或芯片尺寸。然而,较长的焦距将导致相机的尺寸和重量增加,而较大的芯片尺寸将导致电容增加。因此,由于传感器和光学制造技术的局限性,这两种方法都不被认为是有效的[4]。与CMOS相比,CCD在传感器灵敏度、成像分辨率、噪声抑制和技术成熟度方面具有优势[20]。然而,考虑到目前基于CCD的相机的高成本,最近已经研究了基于CMOS的技术。例如,Scientific CMOS(sCMOS)传感器具有更高的分辨率和更高的信噪比(SNR);然而,这项技术的实际应用仍然是一个问题[21]。总的来说,由于硬件技术的局限性,仍然需要研究SR算法以实现分辨率增强的目标。
基于SR的概念,我们需要讨论的第一个问题是从多个LR观察图像获得HR图像的条件。通常,如果图像之间存在补充信息,则SR是可行的[22]。也就是说,LR观察不能通过变换或重采样过程彼此获得,因此它们包含可用于SR的不同信息。如果LR图像之间的相对偏移是积分的,则运动配准后的图像将包含几乎相同的信息。 结果,SR无法获得有效的结果。
为了在实际应用中实现SR,研究人员试图通过硬件控制获取SR的图像。通过硬件技术设计成像机制,传感器可以获得具有已知子像素位移的观察,或者针对同一场景的多个“外观”。因此SR是可能的。成功的例子可以在各个领域[2,23-26]找到。其中一个最着名的成功案例是遥感领域。在法国航天局的SPOT-5卫星系统中,使用了一种专门开发的CCD探测器,它在一个结构中封装了两个12,000像素的CCD。两个线阵CCD在线性方向上相互移位半个像素宽度,如图3所示[23]。由于两个CCD检测器可以同时捕获图像,因此可以在成像位置的半像素移位处获取一组数据。使用该装置和SR技术,我们可以从两个子像素移位图像获得HR图像。徕卡ADS40航空相机采用了与SPOT-5相似的成像机制[27,28]。此外,一些CCD像素包括具有不同形状和空间位置的子像素[29]。通过组合用不同子像素分量记录的多个图像,我们可以通过SR获得更高分辨率的图像。
3. 超分辨率技术和方法
在这一部分中,我们讨论了具有多个观察的SR的方法和当前问题。关键问题是如何在所获取的重复通道图像中使用补充信息。1964年,Harris [30]通过引入如何解决光学系统衍射问题的定理,为SR问题奠定了理论基础。二十年后,Tsai和Huang [31]首先阐述了SR改善Landsat TM图像空间分辨率的想法。 从那时起,许多研究人员开始关注SR,无论是在理论研究还是在实际应用中[1,2,22,24-26,28,32-70]。SR已经发展了三十多年,SR的进展大致可归纳如下。
一开始,大多数方法都集中在频域[31,33,59-61]。频域算法可以基于简单的理论基础利用HR图像和LR观察之间的关系,并且具有高计算效率。然而,这些方法具有明显的局限性,例如对模型误差的敏感性以及难以处理更复杂的运动模型,这阻碍了它们的进一步发展。
由于频域算法的缺点,空间域方法成为主流趋势[4]。流行的空间域方法包括非均匀插值[35],迭代反投影(IBP)[56],投影到凸集(POCS)[57,63,70],正则化方法[34,40,43,47,53,54,58,62]和一些混合算法[71]。早期的回顾文章提供了这些方法的具体描述和解释[4,8,14]。其中,正规化方法由于其有效性和灵活性而最受欢迎。因此,最近关于SR的代表性文章大多集中在正规化框架[1,47,49,53,54,68,72,73]。在这一部分,我们的重点是回顾正规化方法的发展,特别是在过去十年中。此外,还总结了参数设置和优化算法的相关研究进展。本部分的其余部分结构如下。首先,我们谈谈成像模型。然后描述相关模型,包括数据保真度和正则化项。然后讨论了一些先进的技术和挑战,包括自适应参数设置,盲重建和优化策略。
3.1 观察模型
当使用正则化框架时,参考观察模型的成像模型对于SR是必不可少的。在重建之前,我们需要澄清获得观察图像的过程。图像采集过程不可避免地面临一系列降级因素,例如光学衍射、欠采样、相对运动和系统噪声。一般来说,我们通常认为图像采集过程中的退化过程涉及翘曲、模糊、下采样和噪声(图4),观察模型模拟如下:
其中有K张LR图像参与重建。当N1k×N2k被定义为第k个输入LR图像的大小时,L1kN1k×L2kN2k被设置为重建的HR数据的大小,其由水平和垂直放大因子L1k和L2k确定。在(1)中,z是重建图像的矢量形式,其大小为L1kN1kL2kN2k×1,其给出为z=[z1, z2, ⋯, zL1kN1kL2kN2k]T 和yk=[yk,1, yk,2, ⋯, yk,N1kN2k]T是第k个输入数据集的矢量形式。Dk是大小为N1kN2k×L1kN1kL2kN2k的下采样矩阵,Bk表示模糊算子,其大小为L1kN1kL2kN2k×L1kN1kL2kN2k,Mk是翘曲矩阵描述运动信息(例如平移,旋转等)。nk(N1kN2k×1)表示加性噪声。Ok是从第k个图像中排除不可观察的像素的运算符[47,74,75]。这样,如果LR图像中存在无效像素和/或运动异常值,我们就可以同时处理修补(inpainting)和SR问题(图4)。
当(1)中K = 1时,我们可以得到单帧SR的观测模型。 如果排除Dk和Mk,则它是图像恢复的模型,仅处理噪声、模糊或信息丢失的问题。为方便表达,我们用Hk代替Ok、Dk,Bk和Mk的乘积,重写模型(1)如下:
(1)中的模型仍不足以表达所有可能的情况。 因此,其他模型考虑更复杂的因素来更好地描述真实案例,包括不同类型的噪声[52,76],维度复杂度[51],特定图像的域变换[77]等。这些模型在本文中没有详细讨论。
3.2 正规化的重建方法
3.2.1 正规化框架
基于上述观察模型,目标是从一组翘曲、模糊、噪声和欠采样的测量图像重建HR图像。由于(2)中的模型是不适应(ill-conditioned)的,因此SR证明是一个不适定(ill-posed)问题。基于最大后验(MAP)理论,我们需要解决的问题可以转化为最小化问题[62,78]
其中ρ(⋅)和U(⋅)表示相应的约束函数。在(3)中,第一项是数据保真度项,第二项是正则化项,U(z)是能量函数。λ是平衡这两个项的正则化参数。这是一般的变分正则化SR框架。没有正则化项,这等于最大似然(ML)估计。MAP方法结合了图像的先验约束,并通过最大化后验概率的成本函数来获得结果。它们因其边缘保留先验和共同参数估计的灵活性而广受欢迎。相比之下,当估计未知参数的后验概率分布而不是特定参数时,使用贝叶斯估计。
3.2.2 数据保真度项
数据保真度项用于约束实际LR图像与所获得的模拟图像之间的残差,并且通常与噪声模型相关联。例如,基于l2范数的线性最小二乘项被广泛使用[41,49,62,79,80],如(4)中的p = 2。l2范数问题的主要优点是它易于求解,并且存在许多有效的算法[43,41]。然而,当模型误差是白高斯分布时,由l2模型求解的结果才是最优的[82]。
结果,对于图像SR和恢复选择l1范数作为(4)中的函数ρ(⋅)越来越感兴趣,其中(4)中p = 1。由于l2范数对应于高斯分布误差,因此l1范数主要对应于拉普拉斯误差模型,如图5所示。根据Farsiu等人 [43]的说法,p = 1导致像素方面的中值,而p = 2导致SR模型中运动补偿后的所有测量的像素均值。已经证明,当图像包含非高斯误差时,l1-范数保真度比l2-范数保真度更有效[43,43]。
然而,对于复杂类型的噪声和/或模型误差,l1范数和l2范数都有其优点和缺点。因此,一些研究人员采用改进的技术来保证数据保真度[52,81,84-87]。在混合误差模式的情况下,lp范数函数(1 ≤ p ≤ 2)有时被用作约束函数,因为它具有凸性和对成像模型误差的相关性[81]。当1 ≤ p ≤ 2时,它导致测量的加权平均值。如果p的值接近1,则在中值附近的测量值附近以较大的权重计算解。当p的值接近2时,解近似于平均值[43]。在某些情况下,图像被高斯和非高斯误差污染,并且lp范数函数被认为是一种有效的解决方案[81,82]。根据成像模型,检测异常值并在矩阵Ok中将其恢复为不可观察的像素也是排除脉冲噪声像素和属于非高斯误差的运动异常值的有效方法[47]。
不同保真度范数的比较重建结果在图6-7中给出。在第一种情况下,使用Lena测试图像进行合成测试,其中原始图像首先在水平和垂直方向上下采样两倍。因此,获得了四个LR图像,平移移位为(0,0), (0,0.5), (0.5,0)和(0.5,0.5)。然后在LR图像中添加高斯(归一化方差0.003)和脉冲噪声(密度0.03)的混合模式。在Foreman实验中,在重建中包括五个具有移动物体的劣化图像,并且视频序列的第24帧被设置为参考帧。使用视频中的相应HR帧获得LR图像,下采样因子为2。我们使用峰值信噪比(PSNR)和结构相似性(SSIM)指数评估合成实验的结果[88]。PSNR用于评估灰度值相似性,而SSIM主要用于反映结构相似性[89]。当图像被混合噪声污染时(图6),l2范数在保留纹理的同时不能完全去除斑点。相比之下,l1范数在处理高斯分布噪声方面存在一些问题,并且在视觉效果和定量指标方面,lp范数可以获得更好的结果。在第二个测试中,可以清楚地看到,当处理LR观测中的运动异常值时,l1和lp比l2更稳健。
由于能够处理运动异常值,l1和lp都可以防止重建的细节过于平滑。此外,lp - 范数保真度可以在噪声情况下均衡噪声消除和抑制运动伪影[52]。
加权数据保真度项也适用于LR图像对重建图像做出不同贡献的一些情况[25,79,90]。在一些实际情况中,每个LR图像中包含的可用信息量可能根据图像质量(例如,噪声水平,空间分辨率,角度等)而不同。因此,在这种情况下应考虑不同的权重,如(5)中所述。加权数据保真度项已广泛应用于相关工作中,并提出了不同的方法来确定wk [25,79,90]。核心思想是区分SR中涉及的LR图像的不同贡献。
3.2.3 正则化项
正则化在正则变分框架中起着重要作用。由于SR是一个经典的不适定逆问题,因此采用正则化来稳定反演过程[4,47,91]。根据贝叶斯定理,正则化项表示图像先验建模,提供关于所需图像的先验知识[4,72,92]。在过去10年的蓬勃发展中,已有大量关于图像恢复和SR正则化的研究[81,89,93-98]。
3.2.3.1 平滑度先验模型
在早期,主要考虑自然图像的平滑性,这导致正则化的二次性[99,100]。基于Tikhonov的正则化是代表性的平滑约束,其能量函数通常定义为
其中Γ通常被选择作为单位矩阵或高通算子(例如,差分算子或加权傅里叶算子)。拉普拉斯正则化是SR中最常用的正则化之一,它是通过选择平滑算子作为离散二维算子从Tikhonov正则化开发的[100]。
另一类正则化基于马尔可夫理论。马尔可夫随机场(MRF)假设像素的值仅与相邻像素相关,其满足吉布斯密度函数[50]。这样,MRF可以有效地描述图像的局部统计特征。能量函数可以给作
其中dct是clique(小集团?) c的系数向量,通常定义为四个方向上二阶导数的有限差分近似。 φ(⋅)是约束函数。正则化函数通常根据φ(⋅)的选择分为两类,高斯MRF (GMRF) [78]或Huber MRF (HMRF) [101]。对于GMRF正则化,φ(⋅)采用二次l2范数。
这些正则化方法通过惩罚高频分量来平滑恢复的图像,因此在抑制噪声方面表现良好。 但是,它们不可避免地会使尖锐边缘和详细信息过于平滑。
3.2.3.2 边缘保留先验模型
平滑的先验模型在某种程度上违背了图像的本质,因为在许多应用中,人们总是想要图像的清晰细节,包括遥感成像、医学诊断和物体识别[2,28,69]。因此,基于l1 - 范数的正则化通常因为其边缘保持性而被优选[93,101,102]。Osher等人首次提出了代表性的总变异(TV)正则化。 [93,103],其基于图像自然是“块状”和不连续的事实。标准TV规范如下
其中∇hz和∇vz分别是水平和垂直方向上的一阶图像梯度。这里,β是一个小标量,以确保可分性。
与二次正则化不同,使用TV正则化可以更好地保留边缘信息,其中使用l1范数来处理图像信息而不是l2范数[47,104,105]。因此,TV先验模型在过去二十年中一直是最流行的图像处理模型,并已应用于图像去噪、去模糊、分割和SR等领域[47,76,104,106]。然而,TV先验模型的结果通常会产生带有强烈噪声的“阶梯”效应,尤其是在平坦区域[89]。
为了克服TV先验模型的缺点,一些研究人员提出了空间自适应策略。许多方法使用空间自适应正则化参数来消除阶梯效应[94,107-109]。他们中的一些人使用空间信息将图像分类为详细和平坦的区域,并且对于平坦区域使用较大的惩罚参数而对于边缘使用较小的惩罚参数[94,107]。然而,诸如梯度、差曲率和结构张量的空间自适应指标通常对噪声敏感。
此外,不同的范数约束也可以用于空间自适应方式的先验模型[96,108]。lp范数而不是l1范数可以用作TV项中∇z的约束函数。由于l2范数表示平滑先验,l1范数倾向于保留边缘,因此lp(1 ≤ p ≤ 2)范数在它们之间实现平衡,从而避免阶梯效应[110]。其他改进包括高阶TV (HDTV)[111],双边TV (BTV) [43],本地自适应BTV (LABTV) [96]等。
HMRF也是代表性的边缘保留先验模型[101,112]。理论上,混合范数在某种程度上可以在保留边缘和抑制噪声之间实现平衡。 对于HMRF项,选择(7)中的φ(⋅)作为Huber函数,它是分段的:
其中T是阈值。Huber函数满足凸性,对称性和不连续性的特性。HMRF模型在处理具有清晰纹理的图像时是有效的。但是,只考虑邻域信息限制了其性能[113]。
3.2.3.3 基于非局部的先验
局部导数对图像的同质区域中的噪声有些敏感,这对噪声情况下的重建效果产生负面影响。最近,人们提出了基于非局部先验的概念,并在图像处理中迅速发展[97,114-116]。不是局部地定义像素的邻域,而是基于非局部的先验考虑大的搜索区域中的像素并且根据矩形块之间的相似性对它们进行加权。这是基于这样的假设:自然图像中的每个特征都可以在同一场景中多次找到[114]。非局部模型在正则化框架中变得流行,因为非局部TV正则化为
其中i表示图像z: Ω→中的一个像素,搜索窗口通常限于i的平方邻域,表示为Πi。然后可以将权重函数 w(i, j) 定义为
这里,Pi(z) 和 Pj(z) 表示z的 (2n + 1) x (2n + 1) patch,其以像素i(或j)为中心以n为半径。相似性可以使用各种距离公式(例如,通过选择不同的p值)来计算。σ是滤波参数。与TV模型相比,非局部模型可以利用更多信息,从而可以防止平坦区域的阶梯效应,并有助于恢复细节[97,113]。
典型正则化的比较结果如图8所示。下采样过程设定与第3.2.2节中的Lena图像相同。生成的LR图像然后由3*3滤波器模糊,方差为1,并被标准差为10的高斯噪声污染。从结果可以看出,所有边缘保留正则化在移除噪音和保留细节中表现良好。然而,HMRF和非本地TV模型的结果更好地符合人类视觉感知。
除了上述正则化之外,还有许多其他先验模型的研究,例如基于稀疏性的正则化[117],以及形态学理论[98]。 所有这些方法的共同目标是他们想要重建具有自然纹理和清晰、详细信息的无噪声HR图像。还对光谱图像(例如,数字彩色图像或高光谱图像)进行了研究,其中重点在于保持光谱信息,同时增强空间分辨率[118,119]。
3.2.4 自适应正则化参数选择
在处理不适定的逆问题时,参数选择总是令人头疼。特别地,正则化参数在图像SR中起重要作用。在这一部分中,我们展现出在(6)中确定正则化参数λ的自适应策略的主要方法。
在许多情况下,正则化参数是手动选择的。常见的方法是测试一系列正则化参数,并选择与通过定量指标或目视检查评估的最佳结果相对应的最佳参数。然而,这是一个耗时且主观的过程。因此,SR过程中需要自适应策略。已经专门设计了许多策略来自适应地估计正则化参数。这些策略主要受到逆问题领域的发展的启发,例如去噪和去模糊[120-123]。流行的方法包括L曲线法[124],广义交叉验证(GCV)[35]和U曲线法[49]。
在早期的研究中已经注意到,如果模型误差高度相关,GCV方法往往会得到不令人满意的结果[121]。L曲线方法与GCV相比具有一些优势,包括明确定义的数值特性和处理高度相关误差的鲁棒性。L曲线和U曲线两种方法都基于通过改变正则化参数λ而生成的参数图。目标是找到在最小化数据保真度和正则化之间实现良好平衡的最佳λ。当选择基于l2 - 范数的模型时,能量函数可以给出为
其中Γ表示二维拉普拉斯算子。在对Hk使用奇异值分解(SVD)最小二乘法之后,我们定义
L曲线方法使用R(λ)和P(λ)之间的关系搜索不同的L形拐角,而U曲线方法选择接近U曲线的左垂直部分的最大曲率点 ( U(λ) = 1/R(λ) + 1/P(λ) )作为最佳参数。已经证明,U曲线方法可以在SR的二次情形下获得更精确的解。进一步的细节可以在相关的工作[49,124]中找到。这些方法可以获得相对较好的解决方案,但它们尚未扩展到具有各种正则化的一般正则化框架。
必须提到的是,贝叶斯框架[53,72]也是用于建模未知参数的强大工具,包括正则化参数,模糊核和运动矢量。我们将在下一节讨论贝叶斯方法。
3.2.5 盲重建(Blind Reconstruction)
在本文前面,我们从数据保真度和正则化的角度讨论了基于MAP理论的SR框架的主要发展。然而,使用前面提到的技术时假设参数(例如运动模型,模糊核和噪声水平)是已知的[62]。这在现实世界的情况下是不切实际的,在现实世界中,不能事先估计物体和照相机的运动。此外,点扩散函数(PSFs)和噪声水平总是未知的。
传统方法分开处理参数估计和重建。 这些方法将配准和模糊核识别视为预处理阶段[43,49,96]。然而,仅使用LR图像估计的参数可能是不准确的,这将导致令人不满意的性能。我们在下面介绍两种有效的盲重建策略。
3.2.5.1 联合MAP框架
MAP框架在参数估计方面是有优势的,因为它可以灵活地为未知参数添加先验[4]。因此,一些研究人员已经开发出联合MAP方法来自适应地获得未知参数[62,125,126]。与(1)中的观察模型类似,我们将LR观测值定义为y = [ y1T, y2T, ⋯, ykT]T,运动矢量为s = [ s1T, s2T, ⋯, skT]T,PSFs为h = [ h1T, h2T, ⋯, hkT]T。(1)中的观察模型可以用矩阵表示法表示为(14)
注意到z, h和s在统计上是独立的,我们可以根据MAP理论同时形成未知参数的估计。一旦我们确定了z, h和s的概率密度函数(PDF),就可以通过优化以下成本函数来解决不适定的逆问题:
在循环优化过程中,估计的参数与重建的图像一起被迭代地更新。但是,会有许多未知参数需要调整。
3.2.5.2 贝叶斯框架
与MAP估计器不同,贝叶斯方法计算后验分布,而不是为SR系统设置参数的特定值[72,127]。ML和MAP估计器仅返回参数的单个和特定值,而贝叶斯估计则完全计算后验分布p(z, h, s|y)。
贝叶斯推断基于后验分布,因此
这里p(z, h, s, y)是p(y|z, h, s)p(z)p(h)p(s)的便捷表达方式。p(y)独立于未知变量,通常在MAP估算器中被忽略。事实上,正如在许多应用中一样,p(z, h, s|y)是难以处理的,因为无法计算p(y)[72]。需要使用近似方法进行重建[45,53,72]。在Babacan的工作[72]中,他们利用变分贝叶斯方法,通过最小化后验p(z, h, s|y)和易处理分布p(z, h, s)之间的Kullback-Leibler(KL)距离。假设近似分布q(z, h, s)可以被分解,则可以通过使用一阶泰勒级数计算相应的期望来估计相应参数的分布。
通过估计未知数的完全后验分布而不是对应于最大概率(例如,MAP)的点估计,估计的不确定性被并入估计过程中。此外,可以在迭代估计过程中估计未知参数[41,53,72]。然而,贝叶斯框架的准确性取决于参数分布模型,并且通过迭代受到一些附加参数的影响。
3.2.6 优化方法
在建立重建模型之后,可以通过优化相应的成本函数来获取HR图像。如果为噪声模型选择高斯分布,并且采用二次约束进行正则化,则能量函数可以给出为(12)。欧拉 - 拉格朗日函数可以如下:
对于二次方程,可以获得zn+1作为线性方程的解
基于标准l2 - 范数的模型的最小化是线性偏微分方程(PDE)的正则化解。为了解决这种二次不适定逆问题,通常采用共轭梯度(CG)或预处理CG(PCG)方法来优化拉格朗日函数[47,128]。利用给定的迭代的初始估计和停止标准,估计结果将通过迭代近似于数值解。
3.2.6.1 欧拉 - 拉格朗日平滑近似
众所周知,通常很难获得完美或精确的解。共同目标是从统计意义上找到最佳解决方案。欧拉 - 拉格朗日平滑近似方法通常使用l1 - 范数的平滑近似,从而构造线性函数以进行优化。代表性算法包括滞后扩散率定点迭代(LDFPI)[128],主要化最小化(MM)[104],迭代重加权范数(IRN)[129,132]和半二次算法[95]。作为图像恢复中最常用的正则化之一,TV模型是经典的非二次优化问题。在这里,我们以l2-TV SR模型为例来说明具体的近似过程。符号分别基于LDFPI [128]和IRN [129]。重建模型可以给出
其中‖∇z‖TV表示(8)中定义的各向同性TV正则化。(19)中能量函数的欧拉 - 拉格朗日方程由以下非线性系统给出:
其中
这是微分算子的中心差分近似的矩阵形式,其中∇⋅是发散算子。这是z的非线性方程。为了将函数转换为线性PDE,需要采用平滑逼近策略。最初由Vogel [128]提出的LDFPI通过滞后扩散系数1 / √(|∇z|2+β)一次迭代来使差分项线性化。因此,获得zn+1作为近似线性方程的解
通常,半点离散化[133]用于近似Lzn。为了解上述线性PDE,需要CG或PCG方法。IRN是一种通过用加权l2范数逼近它来最小化lp范数(p ≤ 2)的方法[129]。
其中W = diag(|u|p-2)。将该想法引入(22)中的能量函数,该函数可表示为
其中
这里,我们定义
其中限制方程为
这样,我们的欧拉-拉格朗日方程可以被线性化为:
权重矩阵W~Rn可以通过(23)-(25)使用zn计算。似乎LDFPI和IRN是两种不同的方法;然而,当通过平滑近似处理l1 - 范数问题时,它们本质上几乎是相同的。实际上,上面提到的所有算法都获得了与TV最小化相似的结果,包括LDFPI、IRN、MM和半二次算法,其中使用了滞后迭代。因此,它们可以通过转换相互推断。这类方法实现起来很简单,可以扩展到处理各种规范的正则化反演。
3.2.6.2 原始对偶/分裂算法(Primal-dual/splitting algorithms)
第二组方法将原始优化任务分解为原始问题和该问题的双重表述。近年来,已经提出了丰富的相关研究,如交替方向乘法器(ADMM)[131,134],基于原始对偶(PD)的算法[105],道格拉斯-拉赫福德算法[135],近端前向后向分裂(PFBS)[130]和分裂-Bregman(SB)方法[102]。ADMM是图像处理中最常用的凸优化方法之一。它将原始非线性问题的优化转换为寻找经典拉格朗日函数的增广版本的鞍点[131]。给定原始模型为(19),它可以表示如下,并引入辅助变量b
为了变换(27)以生成无约束问题,可以将增广拉格朗日重写为
其中u是作为拉格朗日乘数引入的,τ > 0是惩罚参数。关于z或b,很容易使(28)中的目标函数最小化。优化表达式可以由(29)给出
对于固定的b,它变成了变量z的二次函数。第二个公式中的广义收缩公式通常用于求解bn+1的最小化问题。最后,添加残差项以改善优化过程。通过交替迭代,变量最终可以收敛到原始模型的解[131]。该模型可以很容易地扩展到更复杂的模型,例如具有l1-范数数据保真度项的非二次函数。
这些方法之间的关系已在[136]中详细讨论过。在线性约束的假设下,Bregman迭代正则化方法,Douglas-Rachford算法和ADMM已被证明是等价的[136,137]。这些方法最有希望的方面是通过将原始的大规模逆问题分成几个子问题,可以大大提高计算效率。通常,基于PD的方法比基于平滑近似的优化算法更快。
图像SR还有其他快速且稳健的优化方法。例如,基于图切割的方法可以应用于最小化基于图的能量函数[138,139]。
3.3 图像超分辨率的主要挑战
尽管SR技术已经发展了三十年,但仍存在一些关键的困难。在本节中,讨论了图像SR的主要挑战以及处理这些问题的相应策略。挑战是:(1)具有复杂运动条件的SR;(2)没有多个LR图像的SR;(3)“大数据”处理的加速策略。
3.3.1 具有复杂运动情况的超分辨率
在复杂的运动条件下实现精确的运动估计是一个巨大的挑战。结果,基于重建的SR算法的性能受到显着影响。因此,研究人员试图解决由不准确的动作配准带来的问题。该解决方案包括更先进的配准策略,鲁棒保真度模型,联合参数估计以及没有显式运动估计的方法。
3.3.1.1 先进的配准策略
在模拟情况下,参考帧和其他帧之间的子像素运动场可以通过参数模型(例如,纯平移或全局仿射扭曲)来描述。然而,在大多数具有更复杂运动条件的实际情况下,必须逐点或逐块地估计它们。光流估计[140]是获得所有点的相对精确的运动场的代表性方法之一。然而,基于光流的方法在计算上是昂贵的[141]并且对噪声、大位移和照明变化敏感[142]。为了提高SR中运动估计的准确性,需要先进的配准方法。Baboulaz和Dragotti [143]提出了一种先进的方法,通过采样取景来提取LR图像中的特征以进行配准。Su等人[144]基于稀疏特征点对应,试图通过精确估计局部流来避免不准确的流估计。
3.3.1.2 健壮的保真度模型
尽管已经应用了更准确的配准方法,但在实际情况下运动误差是不可避免的。因此,研究人员试图从模型构建的角度克服不准确配准的影响。配准误差的影响主要体现在数据保真度项中,其为重建的HR图像与观察到的LR图像的一致性提供了约束。如3.2.2节所述,l1范数在处理配准误差方面比l2范数更有效[43]。因此,基于l1-范数的SR方法可以有效地克服运动误差的影响。另外,如(5)所示,具有大配准误差的LR图像通过导入自适应信道函数wk在重建过程中会占较少的比重[145]。权重wk通常设置为与‖yk - Hkz‖pp (1 ≤ p ≤ 2) 成反比,因此减少了模型误差的影响。然而,基于l1-范数和加权模型都需要额外的配准方法来进行运动估计。此外,相对较差的收敛性能限制了它们的应用。
3.3.1.3 联合参数估计
提高重建性能的最常用策略之一是联合方法。这些方法(在3.2.5节中讨论)可以通过同时估计运动参数和重建结果来获得更好的配准结果并在迭代期间排除错误。具体来说,Tom和Katsaggelos [146]开发了一种同时配准和重建方法,他们在ML框架中制定了SR问题,并使用期望最大化算法解决了它。Hardie等人[100]结合联合方法和MAP框架来重建HR图像。
常见的假设是模糊核在重建系统中是已知的。通过选择适当的z和s的PDF可以解决不适定的逆问题。 (15)中先验模型U(z)和U(s)的选择应准确地描述实现的特征。然而,确定s的正则化约束是一项艰巨的任务,它与运动模型有关,并且通常用全局运动模型设置为常数。如果有更复杂的动作,可以采用不同的策略。Shen等人[62]提出了一种组合运动估计,基于对象的分割和SR的联合方法。该方法可以通过迭代地更新运动域、分割域和HR图像来处理具有多个移动物体的SR问题。He等人[126]提出了一种用于运动模型的非线性最小二乘技术,包括平移和旋转。此外,Tian和Yap[147]提出了一种具有缩放运动的SR方法,并使用‖s-s~‖2作为p(s)的PDF,其中s~是运动矢量的初始估计。总体而言,联合超分辨率是在没有准确配准的情况下进行SR的有效方式。然而,相对复杂的模型和额外参数意味着这些方法尚未得到广泛应用。当然,贝叶斯方法也可以防止运动场的估计误差的传播[53,72]。
3.3.1.4 没有显式运动估计的超分辨率
近年来,没有显式运动估计的SR方法已经变得流行。这些方法背后的动机是寻求能够处理具有一般运动模式的序列的SR算法。Protter等[148]概括了非局部均值(NLM)算法来执行SR重建。该方法不是全局地计算数据保真度,而是将LR图像和估计的HR图像分成块,以累积相似块的加权残差。通过构造组合模糊运动估计和基于patch的方法的惩罚函数,它允许该算法处理不同的运动模型。在这项工作之后,Takeda等人[54]将核回归应用到多帧SR,并且该方法能够处理具有一般运动模型的视频序列。Protter和Elad[113]提出了一种新的框架,其中每对图像中的像素运动场被概率运动场代替。没有显式运动估计的SR方法的主要问题之一是计算效率,因为它们中的大多数采用基于patch的方式并且需要迭代来获得最终结果。
3.3.2 没有多个低分辨率图像的超分辨率
SR的目标是恢复在LR图像中不可观察的HR细节。通常,通过跨多个LR图像组合信息来恢复细节。然而,在现实世界中,有时难以获得具有补充信息的足够图像。当放大系数大时,基于重建的算法的性能降低。因此,研究人员转而研究用于单个图像的SR方法,其中观察模型类似于K = 1时的(1)。
不应将单帧SR与类似技术混淆,例如图像插值和使用少量额外信息的重建方法。没有补充信息就无法重建高频细节。例如,基于重建的方法[91,149-154]涉及图像先验以“幻觉化”在图像采集期间丢失的信息。与多帧SR中常用的先验不同,单帧先验通常被设计为减少边缘伪影并且在没有额外外部信息的情况下估计HR细节。虽然边缘保留算子可以消除图像分辨率增强中的振铃伪像(ringing artifacts),但是中频纹理的主要缺陷会阻止这些方法在放大系数较大时有效[11]。换句话说,由于重建模型中涉及的信息有限,这些方法无法满足我们的日常需求。因此,在本次审查中,我们不将传统的基于插值和重建的方法视为SR。
与传统的插值方法不同,单帧SR学习来自外部数据库的低分辨率和高分辨率信息之间的对应关系,从而恢复HR空间中的细节。随着机器学习的快速发展,近年来基于实例的SR受到了很多关注。基于实例的算法[11,12,155-159]要么利用相同图像的内部相似性,要么学习来自外部低分辨率和高分辨率样本对的LR和HR图像块之间的对应关系。在早期阶段,使用基于patch或基于特征的方法来学习LR和HR图像细节之间的一般关系[12,160,161]。作为代表作,Freeman等人[12]采用MRF框架来学习从LR到HR图像的预测。然而,这些方法通常在计算上很昂贵并且取决于训练集和测试集之间的相似性。结果,提出了相邻嵌入(NE)方法和稀疏编码方法。
基于NE的方法假设HR和LR图像中的小patch在两个不同的特征空间中形成相似的流形[155-157,162,163]。Chang等引入局部线性嵌入(LLE)[155],通过学习从LR到HR空间的映射关系,将HR patch预测为训练数据集中最近邻居的线性组合。以这种方式,基于NE的方法需要较少的训练样本并且可以应用于各种图像。然而,基于NE的方法的关键问题是由于严格固定的邻域尺寸的过度拟合或欠拟合而导致的模糊效应。此外,通过学习来自低维空间的高分辨率信息,不能有效地建立LR-HR特征映射。
为了克服这些限制,稀疏编码(SC)方法[11,159,164-166]试图将稀疏信号表示结合起来形成一个学习的超完备字典,并且已经获得了非常有希望的结果。假设图像可以表示为具有过完备字典ψ的稀疏线性组合和具有非常少的非零条目的相应系数向量α,则图像块可以被给出为x =ψα。在SR的概念中,对于每个输入LR patch yr,将针对ψ1找到稀疏表示,并且可以根据HR字典ψh和系数生成HR patch zr。目标是通过优化能量函数来找到α的最稀疏表示和相应的HR图像。统一框架[11]可以解释为
其中αi,j表示z的第(i, j)个patch的表示系数,α表示所有αi,j的串联,并且Pi,j是从z选择第(i, j)个patch的投影矩阵。U(z)表示重建图像的先验项,如3.2.3节所述。通过调整λ和β,模型能够控制匹配LR输入和找到与其邻居兼容的HR patch 之间的权衡。另外,τ可以达到同时抑制噪声的目的。
此后的主要进展包括字典对的不同训练方法[159,166,167],效率改进[168]和各种编码策略[164,169]。在Yang等人的工作中[11],假设系数α对于LR和HR字典都是相同的。然而,进一步的研究声称,不应忽视字典系数之间的差异和联系[166,170]。对于基于稀疏表示的单图像SR来说,这是另一项艰巨的任务。其他研究人员已经开发出基于回归的方法和一些改进的算法,例如具有稀疏NE的SR方法[156],使用非局部自回归建模的图像SR [159],以及基于快速实例的SR的锚定邻域回归[171]。最近,董等人[172]提出了基于稀疏编码的SR方法,该方法也可以看作是一种具有不同非线性映射的卷积神经网络,并应用深度学习来学习LR和HR图像之间的端到端映射。
我们展示了单图像SR的实验结果,然后通过比例因子3进行下采样。图9显示了通过使用不同方法重建的HR Girl图像。利用已知的退化参数,基于TV重建的方法[47]在恢复纹理方面是有效的,但是它产生分段常数块伪像。通过外部信息学习,所有基于实例的SR方法都可以在视觉合理性方面实现有效的重建结果,并获得更清晰的边缘。然而,由于NE方法[156]高度依赖于数据库中样本的质量,因此NE方法[156]对视觉复杂纹理进行建模的能力有限。SC [11]方法希望通过构建联合字典来学习更有效的信息。但是,使用单个映射来描述不同图像块对之间的复杂关系是不够的。利用patch之间的非本地自相似性,学习patch之间的映射函数,以及对图像采用合理的假设,可以实现更好的图像恢复,如ASDS-AR-NL [159]和SPM [166]方法。
此外,单帧SR提供了克服LR图像数量不足的潜力,并在一些特定领域发挥了重要作用,如面部幻觉[173,174],车牌识别[175],医学分析[176,177]和 卫星成像[118],很少有低质量图像的诊断或分析。
3.3.3 大数据处理的加速策略
有一种趋势是在大型数据集上使用SR方法,这些方法被称为“大数据”。因此,必须开发既有效果又足够有效率的方法,以满足现代工业应用的需求。
尽管已经为快速SR提出了丰富的优化方法(第3.2.6节),但效率仍然离实时应用的要求很远。需要制定其他策略来满足速度的需求。Zhang等人[178]提出了两种基于递归多级重建和并行图像重建的快速SR方法。必须提到的是,ADMM非常适合用于解决大规模统计任务的并行机制。此外,空间自适应的基于patch的方法[73,179,180]是常用的方法。然而,总是需要de-blocking过程来减少边缘伪像。
或者,云计算是一种简单而有效的解决方案,可以通过Internet提供计算和存储服务[181]。用户可以在一个使用“超级计算机”的强大计算平台上实现目标[182]。
4. 应用
在回顾了上述方法之后,让我们回到SR在日常生活中的具体应用,这是最基本的问题。 在过去的三十年中,SR的各种应用已得到解决。在以下小节中,我们在重要的应用领域中给出了SR的一些示例。
4.1 常用(regular)的视频信息增强
SR技术的应用已进入我们的日常生活。可以使用SR技术将LR视频图像转换为高清图像。日立公司利用视频SR技术实现了标清电视(SDTV)到高清电视(HDTV)的转换,使SR成为一个特别有趣和相关的研究课题[183]。相关结果可在网站http://www.engadget.com/2009/01/12/eyes-onwith-hitachi-super-resolution-tv/上找到,其中框架中的所有细节都明显增强。
图10显示了一些日常场景的SR结果。QCIF视频序列由3-D ISKR [1]处理,而Bicycle序列由[73]中的方法处理。这些典型示例显示了SR技术在处理由多个移动物体引起的运动异常值时的有效性,这在实际场景中很常见。此外,Apple Inc.宣布他们已经申请了基于SR的光学图像稳定的专利。SR技术迟早会在我们的手机,电脑和平板电脑中使用。
4.2 Surveillance(监控)
如今,数字视频录像机(DVR)设备无处不在,它们在交通监控和安全监控等应用中发挥着重要作用。然而,目前不可能大规模配备HR设备。因此,有必要研究图像SR技术。图11给出了步行序列[184]和无人机监视序列[66]的SR的两个例子。尽管这些技术已经逐渐发展,但视频SR的实际应用仍然是一个挑战。首先,户外视频设备易受天气条件的影响。此外,视频数据通常具有大量数据和复杂运动。一些算法可以处理运动异常值,但计算效率限制了它们的应用。压缩视频SR也是焦点[185,186]。
4.3 医学诊断
各种医学成像模态可以提供关于人体结构和功能信息的解剖学信息。 但是,分辨率限制总是会降低诊断中医学图像的价值。SR技术已被用于关键的医学成像模式,包括磁共振成像(MRI),功能性MRI(fMRI)和正电子发射断层扫描(PET)[187]。目标是在保留真正的各向同性3-D成像的同时提高医学图像的分辨率。医学成像系统可以在高度受控的环境下操作,因此可以容易地获得连续和多视图图像。图12分别表示人脑MRI数据[2]和呼吸同步PET图像的SR结果[67]。
单帧的基于实例的SR也已经应用于医学成像领域,通过收集类似的图像来建立数据库[176,188]。 图13中呈现的以下示例是[176]中膝关节的单个MRI图像的重建图像。训练数据库建立了一套五个标准图像,包括计算机断层扫描(CT)和来自人体各个部位的MRI图像。
4.4. 地球观测遥感
众所周知,[31]中的第一个SR思想是由提高Landsat遥感图像分辨率的需求所驱动的。几十年来,已开发出将SR技术应用于遥感成像的想法。虽然不容易获得满足SR需求的数据,但实际数据已有一些成功应用的例子[25,27,28,189-191]。其中,SPOT-5采集的全色图像的分辨率可以通过将双CCD阵列移动半个采样间隔获得的两个5米图像的SR达到2.5米(图3),这是最成功的案[27,192]。另外,Shen等人。 [28]提出了一种MAP算法,并用中等分辨率成像光谱辐射计(MODIS)遥感图像对其进行了测试,如图14所示。此外,卫星可以获取同一区域的多时间或多视图图像,例如, Landsat,CBERS和WorldView-2,因此为SR提供了可能性[25,191]。图14也给出了一个例子,它包含了由WorldView-2卫星为SR提供的五个角度图像[25]。已经广泛研究了用于分数图像的光谱分离的SR以获得更精细的类标签分辨率图,并且被称为子像素映射[193-195]。研究人员还试图将基于实例的方法应用于遥感图像SR [196,197]
最近,Skybox Imaging计划推出一组24颗小型卫星,可以使用SR技术提供具有亚米级分辨率的实时“视频”[16,198]。目前,SkySat-1和SkySat-2已经推出并投入使用。通过合并大约20帧,输出图像的地面距离(GSD)可以减少到原始数据的4/5 [16]。这是将SR技术引入日常生活的绝佳机会。
遥感图像SR的主要挑战是克服由于时间差异引起的场景变化,并使现有方法适应每天的大量观测。
4.5. 天文观测
受系统参数限制的天文成像设备的物理分辨率也为SR技术发挥作用提供了机会。天文系统通常可以为SR收集一系列图像。通过提高天文图像的分辨率,SR可以帮助天文学家探索外太空。一个具体的例子如图15 [64]所示,显示了多个星图像的SR。
现在卫星也被送入外太空,例如 月球探测计划和火星奥德赛任务。 图16表示中国嫦娥一号月球图像[199]的SR示例,其中基于三个视图重建结果。SR可以提高图像分辨率,从而提高月球表面上小物体的可辨别性。除此之外,Hughes和Ramsey [200]使用来自不同光谱区域的热发射成像系统(THEMIS)热红外和可见数据集来生成火星表面的增强热红外图像。
4.6. 生物识别信息识别
SR在生物识别中也很重要,包括面部[24,201,202],指纹[203]和虹膜图像[65,204]的分辨率增强。生物特征图像的分辨率在识别和检测过程中至关重要。为了处理LR观察,一种常见的方法是从多个LR图像开发高质量图像。基于生物特征图像结构化特征的冗余性和相似性,基于实例的单帧SR与外部数据库是分辨率增强的有效方法[11]。我们给出了图17中的三种生物特征图像重建案例[203,205,206]。利用SR,可以明显增强形状和结构纹理的细节,有效保留全局结构,提高相关应用的识别能力。
5. 讨论和结论
在本文中,我们打算调研过去三十年中的超分辨率(SR)的概念,发展和主要应用。SR技术的主要进展基本上可以分为三个阶段。在第一个十年,研究人员将他们的注意力从频域方法的研究转移到空间域算法。规则化的多帧SR框架是第二阶段的主要焦点。贝叶斯MAP框架由于其良好的性能和灵活的特性而成为最流行的技术。然而,近年来,多帧SR的发展已经放缓,研究人员主要关注各种应用领域的SR重建。不幸的是,SR的广泛实际应用仍然是一个问题。在多帧SR的开发中存在瓶颈式的困境,而基于示例的SR用于单个图像已成为热门问题。但是,这些算法的性能取决于外部数据库的可靠性。
那么我们应该在进一步研究中做些什么?总是需要具有广泛适用性的更先进,自适应和更快的方法。此外,方法应与实际要求紧密结合。硬件设备的快速发展也将为SR框架的应用带来新的挑战。例如,Google Skybox项目将为我们提供使用遥感图像SR获取实时HR“地球观测视频”的机会。SR的概念也已扩展到相关领域,如荧光显微镜[17,207-209]和多基线断层合成孔径雷达(SAR)成像[210,211]。此外,研究人员已尝试将单帧SR技术应用于医学和遥感图像的处理。然而,这些方法的实用性仍然受到相对较差的性能和时间消耗的限制,并且加速策略对于大规模应用是必不可少的。总之,SR的未来仍在我们手中。
致谢
作者要感谢编辑和匿名审稿人提出的宝贵建议。 本研究得到国家自然科学基金(41422108),长江学者与大学创新研究团队计划(IRT1278)和国家自然科学基金(41401383)的支持。
参考文献
详见原始文章