照片润饰

Retouching 有不同的定义

1.https://www.fotor.com/photo-editor-app/editor/beauty

感觉这个像美图秀秀，不是你想要的

2. http://www4.comp.polyu.edu.hk/~cslzhang/paper/PPR10K-cvpr21-paper.pdf

感觉这个是你想要的

作者官网：http://www4.comp.polyu.edu.hk/~cslzhang/

摘要：不同于一般的照片润饰任务，人像照片润饰（PPR）的目标是提高平面人像照片的视觉质量，它有其特殊的实用要求，如人类区域优先权（HRP）和组级一致性（GLC）。HRP要求对人体区域给予更多的关注，而GLC则要求对一组人像照片进行修饰，使其色调一致。然而，在现有的一般照片润色数据集上训练的模型很难满足PPR的这些要求。为了便于对这一高频任务的研究，我们构建了一个大规模的PPR数据集PPR10K，这是我们所知的第一个PPR数据集。PPR10K总共包含1681组和11161张高质量的原始肖像照片。提供了人体区域的高分辨率分割模板。每一张原始照片都由三位专家润色，同时他们精心调整每组照片，使其色调一致。我们定义了一套客观的评估PPR绩效的方法，并提出了学习具有良好HRP和GLC绩效的PPR模型的策略。所构建的PPR10K数据集为自动PPR方法的研究提供了一个很好的基准，实验表明，所提出的学习策略能够有效地提高涂饰效果。提供数据集和代码 https://github.com/csjliang/PPR10K

1导言

肖像摄影在婚礼、生日、毕业、纪念日、广告、个人录音或创作等场景中有着广泛的应用。为了确保决赛照片的高质量，摄影师倾向于捕捉尽可能多的高动态范围的原始照片。然而，一组原始照片可能看起来很平淡，并且由于对象视图、照明条件、背景上下文和相机设置的变化而呈现不一致的色调，如图1的顶行所示。在反馈给客户进行照片选择之前，需要对大量原始照片进行快速润色，然后进行细粒度编辑。

虽然人们普遍接受和遵循一套通用的预润色标准或风格，但大多数人像照片都是手工润色的，对于大尺寸、高冗余的原始照片来说，手工润色非常繁琐和耗时。因此，自动肖像照片润色非常受欢迎，因为它可以节省大量繁琐的人力劳动，并显著提高整个肖像摄影管道的效率，为摄影师和客户带来更好的体验。

不同于一般用途的照片润饰任务，人像照片润饰（PPR）有两个特殊而实用的要求：人类区域优先级（HRP）和组级一致性（GLC）。HRP意味着人像照片中与人类相关的区域应该具有更高的优先级，并受到更多的关注。图1（a）的第一行显示了一组典型示例，其中背景曝光过度，而人体区域曝光不足。对于这种情况，润色应该提高人体区域的曝光率，同时在背景中保留尽可能多的细节。GLC需要一组肖像照片，这些照片通常在同一场景的同一主体上拍摄，但具有不同的主体视图、照明条件甚至相机设置，要调整到一致的色调，如图1的底行所示。

Figure 1: Examples of a group of photos from the PPR10K dataset (better viewed in color). Top: the raw photos; bottom:the retouched results from one expert and the human-region masks. The raw photos exhibit poor visual quality and largevariance in subject views, background contexts, lighting conditions and camera settings. The retouched results demonstrateboth good visual quality and group-level consistency

据我们所知，现有的通用照片润色或增强数据集[1,2,9,13]和模型[3,5,7,10,12,17,20,26,29,30,32]不满足上述两个要求，因此很难满足自动PPR的要求。为了便于对这一重要的高频率任务的研究，本文构建了第一个包含11161张（1681组）高质量原始人像照片的大规模PPR数据集，即PPR10K数据集。原始照片由各种DSLR相机设备捕捉，涵盖了广泛的场景、主题、照明条件和相机设置。每幅原始照片由3位在专业摄影工作室有丰富经验的专家润色师独立调整，形成3个版本的高质量润色靶标。除了高信息量的原始照片和他们的润色结果，我们还为每张照片提供了一个高分辨率的人类区域遮罩，以便更好地利用HRP。每一组照片都经过精心调整，以确保GLC。我们相信该数据集将为自动PPR的研究提供一个有价值的基准。

利用PPR10K数据集，我们定义了一套客观的评价指标，从HRP和GLC两个方面来评价自动PPR的性能。提出了相应的学习策略，以提高训练后PPR模型的润色质量。具体来说，我们定义了基于提供的面具，这有助于实现更好的视觉质量的主题领域的人类区域加权措施。由于一组照片中的内容变化很大，因此在图像空间中显式定义GLC非常具有挑战性。我们发现，基于CIELAB颜色空间的统计信息可以可靠地评估GLC。我们还提出了一种利用单个图像模拟组内变化的有效方法，有效地提高了GLC的性能。考虑到以前的通用照片润色模型在PPR任务中的性能较差，我们重新实现了具有代表性的最先进的照片润色和增强方法，并在我们的数据集上报告了它们的性能，以便进行方便和公平的比较。

本文的贡献有两个方面。首先，我们构建了第一个大规模高质量的PPR数据集，该数据集具有人类区域面具和群体一致性目标，为这项重要任务的研究提供了一个有价值的基准。其次，我们提出了一套客观的评估和优化PPR模型的方法和学习策略。大量实验从定性和定量两方面验证了所提出的数据集、测量方法和学习策略的有效性。

相关工程

照片增强数据集

高质量的数据集是基于学习的照片增强或修饰研究的基础[1,2,9,13]。Bychkovsky等人[1]构建了首创的FiveK数据集，其中包含5000张一般场景的原始照片以及5个版本的修饰目标。这个数据集成功地促进了自动照片修饰和增强的研究[3，7，32]。Ignatov等人[13]构建了DPED数据集，目的是学习从移动设备捕获的低质量照片到高端DSLR相机捕获的对应照片的映射。该数据集主要由风景和街景等一般场景中的照片组成，并作为通用照片增强任务的基准。还有一些数据集侧重于增强照片的动态范围和对比度[2,9]，其中通过融合多帧精心生成基本事实。

尽管付出了巨大的努力，上述数据集是建立在一般的场景，肖像照片只采取少数，没有得到特殊的待遇。此外，他们只考虑每张照片的视觉质量，而不是人像摄影中常见的一组照片。因此，在其上训练的模型不适合于PPR任务。在本文中，我们精心构建了一个更大规模的PPR数据集，满足了人像摄影的HRP和GLC要求

照片润色方法

照片润色[2、6、8、12、16–19、24、31]旨在增强图像的视觉美感，这通常是通过专业工具实现的，例如摄影师∗, 或手工操作，如查找表（LUT）[15]。然而，这些手工工具严重依赖训练有素的艺术家的经验知识和感性审美判断，因此超出了非专业用户的能力。一些基于手工特征的学习方法[1,14,21,22,29]已经被开发出来，但是由于它们对大量图像内容和光照条件的表现能力有限，很难满足实际需求。

得益于FiveK数据集[1]和深度卷积神经网络[11,23]，最近提出了各种基于深度学习的方案[3,5,7,20,25,30]。然而，在实际应用中，大多数深度模型都受到输入分辨率或处理时间的限制。对于高分辨率图像的实时处理，例如超过2400万像素的图像，Gharbi等人[7]提出了HDRNet，将大部分计算放在下采样图像上。他等人[10]提出通过一个轻量级MLP来近似一系列基本操作，例如亮度或对比度调整，而Kosugi等人[17]引入了一个强化学习框架来估计这些操作的参数。作为一种新的技术，Zeng等人[32]提出学习一种图像自适应的三维LUT（3D-LUT），它可以以500fps以上的速度对4K图像进行润色，并具有诱人的色调。尽管如此，上述方法并没有触及人力资源规划和GLC的要求，部分原因是缺乏培训数据。本文在构建的数据集的基础上，提出了两种改进PPR性能的学习策略，为进一步的研究提供了参考。

PPR10K数据集

如前所述，现有的照片润色数据集和模型不能满足PPR的要求。为了解决这些问题，我们构建了一个大规模、高质量的PPR（PPR10K）数据集。

挑战：

为了构建一个有价值的PPR数据集来满足现实世界的需求，我们必须克服几个挑战。首先，照片应该是高质量的原始格式。然而，不同于丰富和容易获得的压缩JPG图像，原始照片更难在互联网上获得。其次，数据集的规模要大，涵盖真实案例的范围要广，在拍摄目的、人体主体、背景场景、照明条件以及摄像设备的使用等方面，这进一步增加了数据采集的成本。第三，应该提供高质量的修饰结果（具有良好的视觉质量和组级一致性）和人类区域遮罩来学习有效的PPR模型。这些要求使得贴标过程既昂贵又繁琐。

数据收集和选择：

为了获得尽可能多的原始肖像照片，我们与许多个人摄影师和专业摄影工作室协商，从他们那里团购原始肖像照片，仅供研究之用。我们还购买了一些付费材料网站，提供原始格式的肖像照片。在数据收集过程中，我们从拍摄目的（如婚礼、生日、毕业、纪念日、广告、个人录制和创作）、人类主题（包括婴儿、儿童、年轻人、夫妇和世界各地的人）、背景场景（包括室内和室外）等方面对原始照片的多样性进行了精心控制，照明条件（从白天到夜晚，从冬天到夏天），以及相机设备的使用（包括佳能、尼康和索尼的一系列高端单反相机）。收集的照片的多样性如图2所示。

图2

我们最初收集了25000多张原始照片，然后进行了几轮筛选。我们首先丢弃没有人类主体的照片，这些照片质量很低，例如严重的运动模糊或失焦，或者包含不适当的信息。我们进一步仔细检查了一组组一组的照片，删除了异常值（照片的内容与组非常不同）和重复的照片（照片的内容几乎相同）。经过筛选，最终获得1681组11161张人像照片，每组3张∼ 在同一场景中连续拍摄18张相同对象的照片。两组典型的照片如图1所示。

数据标签：

为了获得高质量的地面真相，我们聘请了3位专家润色师，他们都在专业摄影行业有5年以上的工作经验，使用PhotoShop中的摄影师对原始照片进行独立润色。每个润色师都需要根据自己的领域知识，对原始照片进行润色，以满足专业肖像摄影工作室的输出标准，主要有两个要求。首先，每一张照片都应该进行润色，以使普通人，特别是人类区域的视觉感受愉悦。第二，一组照片要调整到色调一致。修饰师可以在不改变内容或引入几何变形的情况下调整CameraRaw中的任何操作。此外，每个专家的润饰也要求在相似场景中具有自一致性，这对于学习一个稳定而健壮的润饰模型是非常重要的。我们还聘请了另一位专家对润色结果进行复核，并进行了几轮反馈和修复，以确保高质量的真实情况。三位专家的润色风格见补充文件。

考虑到人像照片中人像区域的高优先级和复杂的光照，我们还提供了人像区域遮罩来学习更好的修饰模型。为了节省注释成本，首先使用内部开发的人像分割算法生成掩模，该算法在一组人像垫数据集上训练，支持分割高达1亿像素的照片。然后，我们手动检查和完善一些困难的场景，如水下，极低光，玻璃反射和闭塞的情况下失败的情况。

讨论：

尽管我们构建的数据集质量很高，但在学习一个有效的肖像润饰模型时仍然存在一些挑战。首先，原始照片和人体区域遮罩的分辨率都非常高，从4K到8K不等，这就要求修饰模型的效率非常高。其次，不同场景中内容和光照条件的多样性要求模型具有灵活性和内容适应性。第三，组级一致性要求模型具有健壮性和稳定性，这对实际应用至关重要。

措施和学习策略

基于PPR10K数据集，定义了一套定量评价PPR方法性能的方法。我们还提出了学习策略来优化PPR任务的HRP和GLC要求。

基本措施

遵循通用照片增强任务[1，7，32]中的常规做法，我们首先定义了两个基本度量，包括峰值信噪比（PSNR）和CIELAB色差[28]。给定输入的肖像照片I，表示为ˆ I和Y分别是PPR模型的预测版本和人类专家修饰的目标。我们可以很容易地得到它们在Lab颜色空间中的转换，用ILab表示，ˆ ILab和Y Lab。类似于在sRGB颜色空间中基于L2距离定义的PSNR，色差被定义为CIELAB颜色空间中的L2距离△Eab=#ˆ 国际实验室实验室− Y实验室2。与sRGB颜色空间相比，CIELAB颜色空间在感知上更加均匀，广泛用于调整照片的色调[27]。

以人为本的措施

考虑到人像照片中人像区域的优先级更高，我们进一步定义了两个以人为中心的度量，这两个度量可以通过在PPR10K数据集中利用提供的人像区域遮罩对人像区域赋予比背景区域更高的权重来自然实现。给我一张H的照片× W分辨率，我们可以构造它的加权矩阵WI=[WI，j]∈ 右侧×W，

实验

实验设置

数据集：

在我们的实验中，我们使用了两个数据集，包括构建的PPR10K数据集和通用的FiveK[1]数据集。PPR10K数据集被随机分成一个包含1356组和8875张照片的训练集和一个包含325组和2286张照片的测试集。按照惯例，FiveK数据集被随机分为4500张图像的训练集和500张图像的验证集。通过CameraRaw以16位tiff格式对输入图像进行预处理，以尽可能保留原始文件中的信息，同时将目标图像转换为8位sRGB颜色空间，以便在普通设备上显示。为了加快训练过程，训练图像被调整到360p（图像的短边）分辨率。测试图像有两种版本：360p分辨率和4K到8K的原始分辨率。

基线方法：

由于PPR在实际应用中需要处理非常高分辨率的照片，这就阻碍了以往大多数照片润色/增强模型的实际应用，因为它们需要大量的计算和内存开销。在我们的实验中，我们采用了三种有竞争力的高效模型，包括HDRNet[7]、CSRNet[10]和3D LUT[32]（作者发布的源代码）。为了更好地建模这样一个大规模和多样的数据集，对于3D-LUT[32]方法，我们使用5个LUT，并使用Resnet-18[11]（用ImageNet[4]上预训练的权重初始化）作为场景分类器。

数据扩充：

除了常用的翻转和旋转等数据增强方法外，我们还通过调整CameraRaw中的6个视觉属性（温度、色调、曝光、高光、对比度和饱和度）来增强训练图像，以丰富训练集的光照和颜色分布。增加的细节可以在补充材料中找到。

基线性能

我们首先在PPR10K数据集上评估了三种最先进的照片修饰/增强方法的基线性能。我们分别对三个专家组中的每一个模型进行了再培训，并报告了它们在五个指标下的表现（峰值信噪比，△Eab、PSNRHC、，△表1（第1-3、7-9、13-15行）中的EHC ab、MGLC）。每一个测量值在两个分辨率上进行评估（360p低分辨率（LR）和原始高分辨率（HR））。从这些结果可以得出一些观察结果。

首先，三种模型都能得到合理的峰值信噪比和信噪比结果△Eab，这表明三位专家的高质量和自洽的注释。在三个版本中，expert-a的润色风格相对更容易学习，因为该专家更喜欢渲染所有场景的更强烈和稳定的色调风格，导致目标空间相对更容易建模。相比之下，另外两位专家更喜欢温和的再现，以保持照片的自然性（补充文件中提供了视觉示例）。在这三种模型中，3D LUT[32]在大多数情况下都比HDRNet[7]和CSRNet[10]具有更好的性能。鉴于3D-LUT的高性能和高效率，我们选择3D-LUT作为基线模型来研究第5.4节提出的学习策略

接受过FiveK和PPR10K训练的模特

本节通过分别在FiveK数据集和我们的PPR10K数据集上对这三种方法进行训练来比较它们的PPR性能。在FiveK数据集上，我们采用了常用的专家C作为训练目标，对这三个模型进行训练。对输入图像进行处理，使其与我们的PPR10K数据集中的格式相同。我们在PPR10K的三个测试集上评估了训练模型，并在表2中报告了定量结果。定性比较如图4所示。正如预期的那样，由于通用照片增强和PPR之间的领域差距，在FiveK数据集上训练的所有模型在所有度量上的性能都比在PPR1K数据集上训练的模型差得多（参见表1）。如图4所示，FiveK模型得到的结果有两个明显的问题。首先，每张照片的色调和颜色都令人不快，尤其是在人类区域。具体来说，女孩的脸在阴影中是深色的，颜色不自然。第二，一组的修饰结果在整体色调和局部对比度上都有很大的差异。例如，与第一张照片相比，第三张照片具有明显更高的亮度和更自然的颜色。相比之下，在我们的PPR10K数据集上训练的模型不仅可以获得更好的个人视觉质量，而且还可以获得更高的组级一致性。

Figure 4: Visual comparisons between models trained on the FiveK (c, e, g) dataset and the proposed PPR10K (d, f, h)dataset. The targets in (b) are from PPR10K-a.

学习策略的有效性

本节使用3D-LUT模型评估所提议的学习策略的有效性。在每个PPR10K集合上，我们仅使用HRP、GLC、HRP和GLC学习策略训练了三个3D LUT模型，并将结果报告在表1中（第4-6、10-12、16-18行）。

我们可以看到，使用HRP损失带来了更好的结果在大多数个别措施。这是合理的，因为所有三位专家都特别注意人类区域在他们的修饰。将更高的权重放在人的区域，从而导致更好的个人润色质量

两个典型的可视示例如图5所示。我们可以看到，使用HRP损失导致更好的视觉质量（明亮的脸和更自然的温度在这两个例子）对人类地区。

Figure 5: Visual evaluation of the HRP learning strategy on example photos by using 3D LUT [32]. Leveraging the HRP lossleads to brighter faces and more natural temperature on both examples.

使用GLC损失稍微恶化了四个单独的措施，但改善了GLC措施。图6显示了一个GLC损失学习的定性示例。如图所示，与通过基线3D LUT获得的结果相比，当采用GLC损失时，背景的颜色趋向于更加一致。具体来说，图6（b，d，f）中的窗帘颜色在基线3D LUT中变化，而在采用GLC损失时为一致的粉红色。另一个观察结果是，将GLC和HRP损失结合起来，可以进一步改进GLC度量。这可能是因为联合优化HRP和GLC损失使模型能够学习互补信息，从而在个体视觉质量和群体水平的一致性之间实现良好的权衡

Figure 6: Visual evaluation of the GLC and GLC+HRP learning strategy by using 3D LUT. From top to bottom: the inputs,results of baseline 3D LUT, results of [3D LUT+GLC] and results of [3D LUT+GLC+HRP].

6结论

我们构建了一个大规模的PPR数据集，这是我们所知的第一个此类数据集。我们从个人摄影师和专业摄影工作室收集了不同内容的高质量原始肖像照片。经过仔细筛选，选出11161张肖像照，分成1681组。数据集中提供了高质量的人体区域掩模。我们邀请了三位专家润色标签的照片优先考虑人类地区和色调的一致性在一组照片。我们定义了一套以人为中心和群体水平的一致性度量来真实地评价PPR模型的性能，并据此提出了训练高质量PPR模型的学习策略。通过大量实验验证了所构建的数据集的价值，以及所提出的措施和学习策略的有效性-

推荐阅读更多精彩内容