Contrastive Learning for Compact Single Image Dehazing
1. 摘要
1.1 现有模型不足:
1、现有模型主要利用正样本信息作为指导进行去雾,负样本的信息没有充分利用。
2、大部分工作侧重于加强除雾网络的深度和宽度,导致对计算量和内存需求巨大。
1.2 本文工作:
1、建立在对比学习的基础上,提出了一种新的对比正则化(CR)。利用模糊图像和清晰图像的信息分别作为负样本和正样本。CR保证了恢复后的图像在表示空间中被拉得离清晰图像更近,离模糊图像更远。
2、考虑到性能和内存存储的平衡,我们开发了一个紧凑的基于类自动编码器(autoencoder-like) 框架的去雾网络。
2. 提出的模型
2.1 符号表示
通常,去雾模型表示如下:
其中,前者表示数据保真项(data fidelity term),后者表示正则项。
2.2 Autoencoder-like Dehazing Network
受FFA-Net[34]高效FA块的启发,提出的类自动编码器(AE)网络中使用FA Block作为基本块。如图所示,网络首先进行一个4X 下采样操作(一个步长为1的卷积与两个步长为2的卷积),然后使用FA Block学习低分辨率空间的特征表示,最后利用4X 上采样操作与一个卷积操作生成恢复后的图像。
值得注意的是,模型只使用了6个FA块(而在FFA-Net中使用57个FA块),显著减少了FA块的数量。为了改善层间的信息流动,融合更多空间结构的信息,提出了两种不同的连接模式:
(1)Adaptive Mixup for Feature Preserving:动态融合下采样层和上采样层之间的特征以实现特征保留;
Adaptive mixup dynamically fuses the features between the downsampling layers and the upsampling layers for feature preserving;
(2)Dynamic Feature Enhancement(DFE):通过融合更具有空间结构的信息来增强转换能力。
2.2.1 Adaptive Mixup for Feature Preserving
Low-level features (比如 边缘和轮廓)通常会被卷积神经网络的浅层所捕捉到。然而,随着层数的加深, 浅层特征对逐渐退化。为了解决这个问题,已经有很多先前的工作,比如skip connections 跟 concatenation operation。为了避免浅层特征的丢失,模型在下采样层与上采样层之间加入了mixup operation。该操作可以表示为
其中,权重是通过注意力机制学到的。
2.2.2 Dynamic Feature Enhancement
以往的工作通常采用固定的网格核,这会限制 receptive field,使得网络不能利用特征空间中的结构化信息。作为一种选择,可以使用膨胀卷积来扩大receptive field,但是,这会引起网格伪影。同时,卷积核的形状对于扩大 receptive field 也是很重要的,具有灵活卷积核的可变形卷积可以可以捕获更多的重要信息。研究[47]表明,空间不变的卷积核会导致图像纹理和过平滑伪像的损坏,因此,提出了可变形的2D核来增强图像去噪的特征。本文也使用了两个可变形卷积模块。作者还发现,在深层之后部署的DFE比浅层部署的性能更好。
2.2.3 Contrastive Regularization
对比学习的目的是学习一个表示,在度量空间上拉近正对的表示之间的距离,推开负对的表示之间的距离。受此启发,本文提出了一种新的对比正则化方式来更好地恢复图像。在对比正则化方面,有两个方面的问题需要考虑:一个是构建正样本与负样本之间的对比损失,另一个是构建两个正样本之间的对比损失。对于潜在特征空间,本文利用预训练的VGG-19模型来构建特征空间。上面提出的优化问题可以转化为:
对于重建损失,采用了L1损失。对于对比正则项,为了增强对比能力,我们从固定的预训练模型的不同层中提取隐藏特征,上式可进一步写为:
其中,D(x,y) is the L1 distance between x and y,w is a weight coefficient。此外,感知损失通过利用从预先训练的深度神经网络中提取的多层特征来衡量预测和地面真实之间的视觉差异。与正导向正则化的感知损失不同,本文还采用模糊图像(去雾网络的输入)作为负约束来约束解空间,实验证明了本文的方法的优越性。