论文阅读——An Integrated Enhancement Solution for 24-hour Colorful Imaging

论文链接： https://arxiv.org/pdf/2005.04580.pdf

一、摘要

目前工业界对于24小时户外成像这一课题的实践是使用近红外光(NIR)辅助的硅相机(silicon camera)。这种方式的缺点在于，白天光线充足时所成彩色图像的对比度很差，夜间则缺乏色度。对于这一困境，当前所有解决方案都是将RGB和IR图像分开获取。这种方案增加了硬件开销，并有可能受到场景限制。本文提出了一种新的集成（integrated，或者译成完整的？）图像增强的方法，无论白天或黑夜都能产生清晰彩色图像。本文的关键在于从混合信号中将VIS(可见光谱)和NIR信息分离开，并在NIR信号的辅助下自适应地增强VIS信号。

当前24小时成像方案在日/夜中的缺陷及本文的enhancement

二、介绍与相关工作

1.1 本文贡献Highlight：

提出一种完备的图像增强方案，用于产生24小时高质量的彩色图像
设计一个成像系统的原型，构建新的数据集，包含aligned RAW/VIS/NIR images
提出一个用于enhancement的端到端网络

注：关于本文提到的integrated的解释：
Imaging under unstable illumination is the major challenge for many imaging systems. Most existing researches focus on specific cases, rather than providing an integrated 24hour colorful imaging solution.

1.2 相关背景：

以安防系统为代表的场景往往要求图像系统提供稳定而持续的24小时高质量成像。然而周围环境光照的变化对图像质量的影响为这一要求引入很大挑战，普通的相机在光线充足的白天成像问题不大，但是夜晚由于光照原因，无法正常成像。为了克服夜晚光照不足对成像的影响，有以下几种可行方案：

简单地打开闪光灯或者增大曝光时间（提高成像时相机进光量，注意会导致相机拍摄帧率降低）。这种方式并不适用：①改变成像色调及曝光范围②导致成像模糊
使用近红外补光来“照亮”物体，进而获取图像。然而NIR的引入是一把双刃剑：一方面NIR利用了硅传感器在700-950nm波长范围的灵敏度，使得视觉信息可以在很暗的光线被获取；另一方面NIR会影响视觉光谱（VIS）信息从而造成彩色图像的降质。

上述第二种方案被业界广泛使用。为了解决其中的困境，一些致力于在图像捕获阶段将VIS和NIR信息分开的方法被提出：

IR cut filter（红外截止滤光片）：当摄像头环境光线充足，切换到红外截止滤光片，此时图像颜色非常好，当环境光线很暗，红外灯开启，切换到全透滤光片，此时图像为黑白清晰图像。
使用特别定制的color filter array（滤色器阵列），可以直接获取VIS信号和NIR信号。但是可能需要花费额外的精力设计类似去马赛克之类的算法？可能存在图像分辨率和质量受限的问题
使用两个相机（图像传感器），一个获取NIR信号，另一个获取VIS信号

方案1和3引入了额外的硬件成本。且多个传感器之间的精确校准也是一个挑战。

本文方案：直接从单个普通硅相机获取的混合信号中分离VIS和NIR信号，并利用相对稳定很多的NIR信号作为引导输入，协助网络对VIS信号的enhancement。

能将VIS信号和NIR信号分离的理论依据：硅相机在较大波长范围（300-950nm）中获得的VIS和NIR信号，在光谱上有相对比较明显的区分，如下图所示：

VIS信号和NIR信号的在视觉光谱上占据的主要区间有明显区别

三、本文方法介绍

3.1 本文中推导的成像模型：

首先，一个传感单元的信号强度取决于接受（释放）的电子数目，或者光强度I。接收到的光强度I则可以表示为原始入射光线I0（各个波长范围内电子光谱、透射率等综合作用的结果）加上两种噪声综合的结果，即：

对波长范围的积分可以近似表示为R/G/B三个离散波长数值处 $L(λ_i)t(λ_i)q(λ_i)$ 的累加结果，则混合成像模型可以简化为：

然后作者说两种噪声可以分别用泊松分布和高斯分布来建模（虽然不知道说这个有啥用），另外在假设Sv和Sn相互独立的基础上，可以把模型进一步简化：

注意 $S_v$ 和 $S_u$ 共用这一建模形式。作者得出结论，VIS信号和NIR信号的强度分别取决于VIS照度水平 $Iv$ 和NIR照度水平 $In$ 。（感觉作者上面推那么多好像其实就是想得出这么个结论而已...感觉公式有点强行）

3.2 本文贡献的VIS-NIR-MIX（VNM）数据集

作者根据上面的分析，提到由于VIS信号照度水平在一天之内变化会比较大，导致 $Sv$ 也会产生剧烈变化。当 $Iv$ 不充分时 $Sv$ 的信噪比会很低。而 $In$ 就不存在该问题，由于额外的NIR补光存在，NIR在一天之内可以保持非常稳定且充足的照度水平，故NIR的信号强度也非常稳定，信噪比较高。基于这些事实，作者设计了采集数据的方案：

采集目标：①采集白天和夜晚的NIR-VIS带噪声混合数据，作为模型输入；②采集白天和夜晚的NIR/VIS两种数据，用来训练SeperationNet，将mixed image分开；③采集高质量的VIS数据，用于训练RestorationNet与ColorizationNet（如果夜晚采集可以通过long exposure实现）

数据采集设备

每个场景采集7张图像：

VNM数据集构成示意

3.3 模型架构与Loss设置：

本文的Speration和Restoration模型整体结构

整体来说模型结构比较粗暴，各个模块都由一个Unet的子网络构成。具体来说分为四个sub-Unet：

SeperationNet：输入为mix图像，label为NIR图像。用于从原始信号分离NIR信号；
PropotionNet：输入为mix图像，没有直接label，预测出一个deviation prob map，然后让mix image - prob_map * NIR图像，得到VIS图像，对预测的VIS图像做监督。
这里作者的解释是，在采集NIR数据（比如，用一个700-850nm波长段的滤波器）时，由于该波长段除了NIR信号其实也包含部分VIS信号（见下图），实际上采集到的“NIR信号”也是一种混合信号，只不过可能NIR信号在其中所占据比例比较大。故可以先让模型预测出“混合NIR信号”中纯净NIR信号的占比，然后通过乘以这个prob map得到纯净NIR信号，再用输入的mix信号减去纯净NIR信号，即得到了分离出的纯净VIS信号（或者是带噪声的VIS信号，但是不包含NIR信号？按作者的意思，纯净VIS信号+纯净NIR信号应该是等于无噪声的mix信号）。
RestorationNet：输入为NIR信号+分离的VIS信号的Y通道（lumination component），预测出enhanced VIS-Y，label应该是高质量的VIS图像的Y通道；
ColorizationNet：输入为分离的VIS信号的UV通道，预测出enhanced VIS-UV通道（chrominance component），该sub net没有直接监督，而是将enhanced VIS-Y和enhanced VIS-UV堆叠起来转换为RGB之后，使用高质量的VIS RGB label做监督。值得注意的是作者在预测VIS-UV时并没有将预测结果上采样到原图大小，而是上采样到原分辨率的1/4，YUV合并前再resize回去。这里作者解释说是瓭色彩信息相比亮度intensity信息，在空间频率上低一些，故一定程度的压缩可能不影响视觉感受，但是对于denoising和enhancement会有好处（为什么？）。

Loss函数：

对于Seperation部分， $L^{v}$ 代表VIS的损失， $L^n$ 代表NIR的损失， $L_{ma}$ 代表MAE， $L_{SS}$ 代表SSIM，这里用 $1-SSIM(I_{in},I_{out})$ 来对输入输出之间的结构一致性做一个监督。 $L_{sm}$ 代表一个结构上的平滑约束项，这里没太看懂
对于Restoration部分，v2和y分别代表高质量VIS的RGB形式和Y分量（感觉符号表示的比较奇怪），最后一项 $L_{pe}$ 代表会对预测的RGB和GT RGB做一个percepual loss，以进一步提升重建图像的高层信息一致性。

四、信息记录

4.1 名词解释：

CFA：color filter array与Bayer Filter

背景：

物体反射的光线被相机的光电传感器接收到，但是光电传感器只能感觉到intensity信息，对光的波长信息没有分辨力。所以无法分辨颜色信息。为了要分辨颜色信息，需要分别用R/G/B对应波长段的滤镜来过滤入射光并接收，以获取R/G/B三个通道。但是这种方式使得相机中的传感元件体积很大，成本很高。拜耳过滤器的出现解决了这一问题。

成像过程：

首先拜耳过滤器被放置于像素传感器上方，一个颜色对应一个像素，即每个重复的模式占据四个像素传感器单元。

拜耳过滤器与像素传感器的关系
经过上述滤色器阵列-像素传感器组成的成像元件之后，生成原始数据：每个像素只有R/G/B中的一个颜色，丢失的两种颜色需要通过去马赛克算法来估计出来

Mosaiced raw data示意图

与3-sensor相机的比较：

白平衡：

4.2 不理解的地方记录

本文贡献的数据集和代码都未公开？
模型训练时，输入是白天/夜晚的mix图像，SeperationNet的label是通过NIR pass filter和VIS pass filter得到的NIR和VIS信号。那么 RestorationNet的label是什么？ $L^y_{ma}$ 用的应该是long exposure的VIS信号的Y分量， $L^{v2}_{ma}$ 用的是VIS信号的RGB形式？那如果训白天数据的话，SeperationNet的VISlabel和RestorationNet的VIS-Y label及VIS-RGB label是不是同一张图像对应的？论文讲的不太清楚。
夜晚采集的NIR数据有用吗？文章中说白天采集的VIS和NIR数据由于SNR比较大可以忽略噪；同时NIR信号强度在白天和晚上变化不大，那是不是对同一个场景，SeperationNet都应该用白天的NIR数据？
公式9中这个形式为什么可以描述输入图像和输出图像的structure-awareness？并不是一个归一化的指标？
数据采集阶段的LED simulation是做什么的？
在ColorizationNet预测UV分量时作者提到由于相对空间频率低一些可以容忍一定程度压缩，故预测的分辨率比原土低，作者还说这样便于去噪和enhancement，为什么？

4.3 相关词汇记录：

to this end: 为此
surveillance systems：监控系统
ambient: 周围的，环境的
superposition：叠加
meticulous calibration：精细校准