1. 概念
sRGB图和raw图是两种不同的图像格式,它们之间的转换需要一些特定的算法。
sRGB图是经过图像信号处理 (ISP) 的彩色图像,它包含了白平衡、去马赛克、降噪、颜色空间转换、色调映射等操作。
raw图是未经处理的原始图像,它保存了相机传感器捕获的原始数据,通常有更高的位深度和动态范围。
2. 方法分类
基于模型的方法:这类方法利用了相机ISP中的各个模块对其进行建模,生成合成的训练数据对。例如,Unprocessing Images for Learned Raw Denoising 提出了一种方法’unprocess’, 考虑到相机ISP中的各个模块对其进行建模,生成syntactic训练数据对。这种方法可以批量生成raw视频数据,并且根据自己的噪音模型往上加噪音。但是,这种方法也存在一些问题,比如rgb的8bit和raw的12bit的问题,以及tone mapping和白平衡等非线性操作会对数据集造成退化。
基于可逆网络的方法:这类方法利用了可逆网络结构来学习RAW和sRGB之间的双向映射,从而实现可逆的ISP。例如,Invertible Image Signal Processing 重新设计了一个端到端可逆ISP,可以绕过传统的模块,最大限度地减少 raw 数据和 jpeg 图像转换过程中的信息损失,进一步实现高质量 raw 数据重建。这种方法可以学习到ISP pipeline的一些非线性特性,并且对JPEG压缩鲁棒。但是,这种方法也需要大量的训练数据,并且可能存在一些不可逆的情况。
基于循环一致性的方法:这类方法利用了循环一致性损失来约束RAW和sRGB之间的转换,从而实现无监督或半监督的ISP。例如,CycleISP: Real Image Restoration via Improved Data Synthesis 提出了一种循环ISP框架,它可以从真实sRGB图像合成高质量的RAW图像,并且可以从合成或真实RAW图像恢复高质量的sRGB图像。这种方法可以利用大量的真实sRGB图像作为数据源,并且可以改善合成数据集中存在的信息缺失问题。但是,这种方法也需要设计合适的循环一致性损失,并且可能存在一些循环伪影。
3. 数据集
- Unprocessing Images for Learned Raw Denoising1 使用了Darmstadt Noise Dataset (DND) 和 Smartphone Image Denoising Dataset (SIDD) 作为训练和测试数据集。
- Invertible Image Signal Processing2 使用了MIT-Adobe FiveK Dataset 作为训练数据集,使用了DPED, See-in-the-Dark (SID), Zurich RAW to RGB (ZRR) 作为测试数据集。
- CycleISP: Real Image Restoration via Improved Data Synthesis3 使用了MIT-Adobe FiveK Dataset 和 DPED 作为训练数据集,使用了DND, SIDD, Nam, RENOIR, NC12 作为测试数据集。
4. 评价指标
- 峰值信噪比 (PSNR):这是一种常用的图像质量评价指标,它通过计算原始图像和重建图像之间的均方误差 (MSE) 来衡量两者的相似度。PSNR越高,表示重建图像越接近原始图像。例如,Unprocessing Images for Learned Raw Denoising 使用了PSNR来评价从合成的sRGB图重建raw图的性能。
- 结构相似性指数 (SSIM):这是一种考虑了人类视觉感知特性的图像质量评价指标,它通过计算原始图像和重建图像之间的亮度、对比度和结构相似度来衡量两者的视觉质量。SSIM越接近1,表示重建图像越接近原始图像。例如,Invertible Image Signal Processing 使用了SSIM来评价从JPEG压缩的sRGB图重建raw图的性能。
- 均方根色彩误差 (RMSE-C):这是一种专门用于评价颜色还原能力的指标,它通过计算原始图像和重建图像之间的色彩距离来衡量两者的颜色相似度。RMSE-C越低,表示重建图像越接近原始图像的颜色。例如,CycleISP: Real Image Restoration via Improved Data Synthesis 使用了RMSE-C来评价从真实sRGB图合成raw图的性能。
根据我搜索的结果,这些评价指标各有优缺点,简要如下:
- PSNR:优点是计算简单,实现方便,已经应用在视频编码标准中。缺点是受像素点的影响大,与人的主观感受不一致,没有考虑人类视觉系统的特性12。
- SSIM:优点是考虑了图像的亮度、对比度和结构三个方面,更符合人类视觉系统的特性,与主观评价一致性高12。缺点是计算复杂度高,需要对图像进行局部分割和加权处理12。
- MSE:优点是计算简单,直观反映了图像的失真程度。缺点是没有考虑到人类视觉系统的非线性特性,对于不同类型的失真敏感度不同34。
图像质量评价指标的选择取决于不同的应用场景和目标。一般来说,有以下几个原则:
- 如果有原始图像作为参考,可以选择全参考方法,如PSNR, SSIM等,这些方法可以比较直观地反映两幅图像之间的差异程度。
- 如果没有原始图像作为参考,可以选择无参考方法,如BRISQUE, NIQE等,这些方法可以根据图像的自然度或统计特征来评估图像的质量。
- 如果要考虑人类视觉系统的特性,可以选择基于感知的方法,如VIF, FSIM等,这些方法可以模拟人眼对图像的感知过程,更符合主观评价。
- 如果要评价特定类型的失真,如模糊,噪声,压缩等,可以选择针对性的方法,如BLIINDS, DIIVINE等,这些方法可以针对不同的失真因素进行优化。
- 如果要评价多种类型的失真,或者不清楚失真类型,可以选择通用的方法,如MAD, GM-LOG等,这些方法可以适应多种场景和失真情况。