扫视-聚焦网络：连接现实与合成数据的端到端抠图网络

https://arxiv.org/abs/2010.16188v3

Bridging Composite and Real: Towards End-to-end Deep Image Matting

Jizhizi Li, Jing Zhang, Stephen J. Maybank, Dacheng Tao

https://baijiahao.baidu.com/s?id=1683045060027322963&wfr=spider&for=pc

从自然图像中提取准确的前景有利于许多下游应用，如电影制作和增强现实。然而，前场的毛茸茸的特征和各种外观，例如动物和肖像，挑战了现有的抠图方法，这些方法通常需要额外的用户输入，如trimap或Scribble。为了解决这些问题，我们研究了语义和细节在图像抠图中的不同作用，并将任务分解为两个子任务：高级语义分割和低级细节抠图。具体而言，我们提出了一种新颖的扫视-聚焦抠图网络（GFM），该网络采用一个共享编码器和两个单独的解码器，以协作方式学习这两个任务，实现端到端自然图像抠图。此外，由于matting任务中可用自然图像受限，以前的方法通常采用合成图像进行训练和评估，这导致对真实图像的泛化能力有限。在本文中，我们通过对前景图像和背景图像之间的各种差异进行综合分析，系统地研究了合成图像和真实图像之间的域差距问题。我们发现，一个精心设计的合成路线RSSN，旨在减少差异，可以导致一个更好的模型具有显著的泛化能力。此外，我们还提供了一个包含2000幅高分辨率真实世界动物图像和10000幅肖像图像及其手动标记的alpha matte的基准，作为评估matte模型在真实世界图像上泛化能力的测试平台。综合实证研究表明，GFM方法优于现有的方法，有效地降低了泛化误差。开源了，在https://github.com/JizhiziLi/GFM

1 引言

图像matting是指从输入图像中提取前景alpha matte，需要明确前景或背景的硬标签和过渡区域的软标签，这在许多应用中起着重要作用，例如虚拟现实、增强现实、娱乐等。图像抠图中的典型前景具有毛茸茸的细节和多样的外观，例如动物和肖像，这给图像抠图方法带来了很大的负担。如何识别语义前景或背景，以及提取trimap-free自然图像抠图的精细细节，仍然是图像抠图领域的挑战。

对于图像抠图，假设图像 $I$ 是前景 $F$ 和背景 $B$ 经由soft alpha matte $\alpha \in [0,1]$ 线性组合而成的：

$I_{i}= \alpha _{i}F_{i}+(1-\alpha _{i})B_{i}$ $(1)$

其中 $i$ 表示像素索引。由于欠确定的性质，从公式（1）中估计F、B和α是一个典型的不适定问题。为了减轻负担，以前的抠图方法采用额外的用户输入，如trimaps（Xu等人，2017年）和scribbles（Levin等人，2007年）作为先验，以降低未知程度。基于对相邻已知像素的采样（Wang和Cohen，2007；Ruzon和Tomasi，2000；Wang和Cohen，2005）或定义亲和矩阵（Zheng等人，2008），将已知α值（即前景或背景）传播到未知像素。通常，一些边缘感知平滑度约束用于使问题易于处理（Levin等人，2007）。然而，无论是采样还是计算亲和矩阵都是基于低级颜色或结构特征的，这在模糊的过渡区域或精细边缘处没有那么好的区分性。因此，它们的性能对未知区域的大小很敏感，并且可能会受到模糊边界和颜色混合的影响。为了解决这个问题，提出了基于深度卷积神经网络（CNN）的抠图方法（Xu等人，2017年；Chen等人，2018年；Zhang等人，2019b；Qiao等人，2020年；Liu等人，2020年；Yu等人，2021年），以利用其强大的表示能力来学习鉴别特征（Zhang和Tao，2020年）。尽管基于CNN的方法可以获得良好的抠图效果，但前提条件下的trimaps或scribbles不太可能用于自动应用，如实时流媒体和电影制作的增强现实。

为了解决这一问题，近年来提出了端到端抠图方法（Chen等人，2018年；Zhang等人，2019b；Shen等人，2016年；Qiao等人，2020年；Liu等人，2020年）。其中大多数可分为两类。图1（a）中（i）所示的第一种类型是一种简单的解决方案，即按顺序执行全局分割（Aksoy等人，2018）和局部抠图。前者旨在生成trimap（Chen等人，2018；Shen等人，2016）或前景/背景生成（Zhang等人，2019b），而后者是基于trimap或前一阶段生成的其他先验信息的图像抠图。这种管道的不足归因于其顺序性，因为它可能会产生错误的语义错误，而这些错误无法通过后续的matting步骤纠正。此外，由于两个阶段之间的不匹配，两个阶段的单独训练方案可能导致次优解。第二种类型如图1（a）的（ii）所示，在进行局部抠图时，提供全局信息作为指导。例如，在（Liu等人，2020年）和（Qiao等人，2020年）中，在抠图网络中生成并使用了粗alpha matte，并采用空间和通道方向的注意来为抠图网络提供全局外观过滤。这些方法避免了阶段性建模和训练的问题，但也带来了新的问题。虽然以隐式方式提供全局引导，但在单个网络中同时为前景/背景区域和过渡区域生成alphamatte是一项挑战，因为它们具有不同的外观和语义。

为了解决上述问题，我们研究了语义和细节在自然图像抠图中的不同作用，并探索了将任务分解为两个并行子任务的思想，即语义分割和细节抠图。具体地说，我们提出了一种新的端到端matting模型Glance-and-Focus-matting-network（GFM）。它由一个共享编码器和两个单独的解码器组成，用于以协作方式学习这两个任务，以便在单个阶段中进行端到端的自然图像抠图训练。此外，我们还探索了Glance解码器中的不同数据表示格式，并从语义转换表示中获得了有用的经验见解。如图1（a）（iii）所示，与以前的方法相比，GFM是一个统一的模型，它在单个网络中显式地和协作地建模子任务。

图像抠图的另一个挑战是可用抠图数据集的限制。如图1（b）所示，由于费时费力且成本高昂的标记过程，现有的公共matting数据集只有数十或数百个高质量注释（Rhemann等人，2009年；Shen等人，2016年；Xu等人，2017年；Zhang等人，2019b；Qiao等人，2020年）。如图1（b）（i）所示，它们要么仅提供如图1（b）（i）所示的前景和alpha matte（Xu et al.，2017；Qiao et al.，2020），要么提供由图1（b）所示的现有matte算法集合生成的固定尺寸和低分辨率（800×600）肖像图像，其中alpha matte不准确（Shen et al.，2016）。由于真实世界的原始图像不可用，如图1（b）（i）所示，matting中数据增强的常见做法是根据等式（1）通过alpha混合将一个前景与各种背景图像合成，以生成大规模合成数据。背景图像通常从现有的图像分类和检测基准中进行选择，如MS COCO（Lin等人，2014）和PASCAL VOC（Everingham等人，2010）。但是，这些背景图像的分辨率较低，可能包含显著的对象。在本文中，我们指出，由于前景图像和背景图像之间的分辨率、锐度、噪声和照明差异，由于合成伪影，沿着上述路径的训练图像与那些自然图像存在显著的域差距。模型在使用这些合成数据的时候，可能会根据一些伪相关特征来区分前景和背景，并在训练过程中误导模型，导致模型拟合过度，对自然图像的泛化能力较差。

在本文中，我们系统地研究了域差距，并对图像抠图中的合成管道进行了全面的实证分析。我们确定了导致域差距的几种差异，并指出了可能的解决方案。然后，我们设计了一种名为RSSN的新合成路线，该路线可以显著减少因分辨率、清晰度、噪声等差异而产生的域差距。此外，如图1（b）（ii）所示，我们提出了一种无显著前景对象的大规模高分辨率干净背景数据集（BG-20k），可用于生成高分辨率合成图像。大量实验表明，所提出的合成路线与BG-20k结合使用，可以将泛化误差降低60%，并达到与原始自然图像上训练的模型相当的性能。它为基于合成的图像抠图打开了一条道路，因为通过利用chroma keying，获得前景图像和alpha抠图要比从原始自然图像中获得容易得多。

为了公平评估matting模型在真实世界图像上的泛化能力，我们首次尝试建立一个大规模基准，包括2000幅高分辨率真实世界动物图像和10000幅真实世界肖像图像以及手动仔细标记的精细alpha matte。与之前的数据集（Xu et al.，2017；Qiao et al.，2020；Shen et al.，2016）不同，如图1（b）的（i）和（ii）所示，之前的数据仅提供前景图像或低分辨率不准确的alpha matte，我们的基准包括所有高分辨率真实世界原始图像和高质量alpha matte（短边超过1080个像素），这有助于在真实图像上训练具有更好泛化能力的模型，同时也提出了一些新的研究问题，这些问题将在后面讨论。

本文的贡献有四个方面：

• 我们提出了一种新的称为GFM的端到端图像抠图模型，该模型可同时生成全局语义分割和局部alpha抠图，无需任何先验输入，只需一幅图像。

• 我们设计了一种新的合成路线RSSN，以减少各种差异，并提出了大规模高分辨率背景数据集BG-20k，作为生成高质量合成图像的更好候选。

• 我们构建了一个大规模的真实世界图像基准，通过其大规模、多样的类别和高质量的注释，有助于训练具有良好泛化性的更好模型。

• 对基准的大量实验表明，GFM优于最先进的（SOTA）matting模型和RSSN可以作为未来研究的一个强有力的基线。此外，所提出的合成路线RSSN通过大幅度减少泛化误差证明了其价值。

2 相关工作

2.1 图像抠图

大多数经典的图像抠图方法都使用辅助输入，如trimaps（李等人，2017年；孙等人，2004年；莱文等人，2008年；陈等人，2013年；莱文等人，2007年）。他们根据局部平滑度假设对前景和背景标签进行采样或传播到未知区域。最近，基于CNN的方法通过学习辨别特征而不是依靠手工制作的低级颜色特征来改进它们（Xu等人，2017；Lu等人，2019a；Hou和Liu，2019；Cai等人，2019；Tang等人，2019）.Deep Matting（Xu等人，2017年）采用编码器-解码器结构提取高级上下文特征。IndexNet（Lu等人，2019a）通过学习下采样期间的激活indices，重点关注边界恢复。然而，基于trimap的方法需要用户交互，因此不太可能部署在自动应用程序中。最近，Chen等人（Chen等人，2018）提出了一个端到端模型，该模型首先预测trimap，然后进行matting。Zhang等人。（Zhang等人，2019b）还设计了一个两阶段模型，首先分割前场或背景，然后使用matting网络对其进行细化。这两种方法都将分割和抠图过程分为不同阶段，这可能会产生错误的分割结果，误导后续抠图步骤。Qiao等人。（Qiao等人，2020年）在预测时采用空间和通道注意来整合外观线索和金字塔特征，然而，前景/背景区域和过渡区域的不同外观和语义给单阶段网络带来了沉重负担，并限制了alpha matte预测的质量。Liu等人。（Liu等人，2020年）提出了一个网络来进行人体抠图，首先预测粗略的mask，然后采用细化网络来预测更详细的mask。尽管有必要进行阶段性训练和测试，但由于没有明确定义过渡区域，因此粗略的mask不足以指导网络细化细节。

与以前的方法相比，我们通过多任务学习设计了一种新的端到端抠图模型，该模型同时处理分割和抠图任务。它可以在一个共享的编码器中学习高级语义特征和低级结构特征，有利于后续分割和matting解码器的协作。与我们密切相关的一项工作是AdaMatting（Cai et al.，2019），它也有一个共享编码器和两个解码器的结构。有几个显著的区别：1）AdaMatting需要一个粗略的trimap作为额外的输入，而我们的GFM模型只需要一个图像作为输入，没有任何先验条件；2） AdaMatting中的trimap分支旨在细化输入trimap，这比在我们的方法中生成全局表示要容易得多，因为初始trimap实际上是学习语义特征的注意mask；3）由AdaMatting生成的适配trimap通过后接的传播单元用作alpha解码器的指南，该传播单元不适合于端到端matting任务，因为它缺乏两个解码器的明确协作；4） GFM的编码器和解码器结构都是专为端到端抠图而设计的，这与AdaMatting不同；5）我们系统地研究了glance解码器中的语义转换表示(semantic-transition representations )，并获得了有用的经验见解。

2.2 Matting数据集

现有的matting数据集（Rhemann等人，2009年；Xu等人，2017年；Zhang等人，2019b；Qiao等人，2020年）仅包含前景和少量注释的alpha matte，例如alphamatting中的27个训练图像和8个测试图像（Rhemann等人，2009年）、Comp-1k中的431个训练图像和50个测试图像（Xu等人，2017年），以及596张训练图像和50张测试图像（乔等人，2020年）。DAPM（Shen等人，2016年）提出了2000幅真实世界的肖像图像，但尺寸固定且分辨率较低，以及由一组现有的抠图模型生成的有限质量的alpha matte。与之相反，我们提出了一个高质量的基准，由10000幅高分辨率真实世界的肖像图像和2000幅动物图像组成，并为每幅图像手动标注alpha matte。我们的经验表明，在我们的基准上训练的模型比在合成图像上训练的模型对现实世界的图像具有更好的泛化能力。

2.3 图像合成

图像合成作为图像抠图的逆问题和生成合成数据集的典型方法，在图像编辑中起着重要的作用。过去几年，研究人员一直致力于从颜色、照明、纹理兼容性和几何一致性的角度改善合成图像的真实性（Xue等人，2012年；Tsai等人，2017年；Chen和Kae，2019年；Cong等人，2020年）。Xue et al.（Xue et al.，2012）进行了实验，以评估图像统计度量（包括亮度、色温、饱和度、局部对比度和色调）如何决定合成图像的真实性。Tsai等人（Tsai等人，2017年）提出了一种端到端的深度卷积神经网络，以调整前景和背景的外观，使其更加兼容。Chen等人（Chen和Kae，2019）提出了一种生成性对抗网络（GAN）架构，用于学习合成材料中的几何和颜色一致性。Cong等人（Cong等人，2020年）提供了一个大规模图像协调数据集和一个使用新型域验证鉴别器的网络，以减少前景和背景的不一致性。尽管他们很好地合成，使其更符合实际情况，但在将合成数据拟合到matting模型时，域差距仍然存在，原因是人类主观商定的协调标准并不等同于机器学习模型的良好训练候选标准。此外，此类程序可能会修改前场的边界，并导致真值alpha matte的不准确。在本文中，我们将重点放在生成可用于减少自然图像上的抠图模型泛化误差的合成图像上。

3 GFM：扫视-聚焦抠图网络

在处理图像抠图问题时，我们人类首先扫一眼图像，快速识别突出的粗糙前景或背景区域，然后将注意力集中在过渡区域，以区分细节和背景。它大致可以表述为分割阶段和抠图阶段。请注意，这两个阶段可能相互交织，第二阶段将提供反馈，以纠正第一阶段的错误决定，如动物保护性着色或遮挡造成的一些模糊区域。为了模仿人类经验并在两个阶段赋予matting模型适当的能力，将它们集成到单个模型中并显式地为协作建模是合理的。为此，我们提出了一种用于端到端图像抠图的新颖的扫视-聚焦抠图网络，如图2所示。

上面那个图的局部：

3.1 共享编码器

GFM具有编码器-解码器结构，其中编码器由两个后续解码器共享。如图2所示，编码器将单个图像作为输入，并通过五个块对其进行处理： $E_{0} ...E_{4}$ ，其中每一个都将分辨率降低一半。我们采用DenseNet-121（Huang et al.，2017）、ResNet-34或ResNet-101（He et al.，2016）作为我们的主干编码器，它们是在ImageNet训练集上预训练的。对于DenseNet-121，我们添加了一个卷积层，以将输出特征通道减少到512。

3.2 扫视解码器（GD）

扫视解码器的目的是识别容易的语义部分，并将其他部分作为未知区域。为此，解码器应该有一个大的感受野来学习高级语义。如图2所示，我们对称地堆叠五个块作为解码器 $D_{4}^G......D_{0}^G$ ，每个解码器由三个连续的3×3卷积层和一个上采样层组成。为了进一步扩大感受野，我们在E4之后添加了一个金字塔池模块（PPM）（Zhao等人，2017；Liu等人，2019）以提取全局上下文，然后通过元素求和将其融合到每个解码器块 $D_{i}^G$ 。

损失函数

扫视解码器的训练损失是交叉熵损失LCE，定义如下：

Gcp在哪里∈ [0，1]是cth类的预测概率，Gcg∈ {0，1}是真值标签。GD的输出是一个两通道或三通道（C=2或3）类概率图，取决于语义转换表示，将在第3.4节中详细说明。

3.3 聚焦解码器（FD）

如图2所示，FD具有与GD相同的基本结构，即对称堆叠的五个块 $D_{4}^F......D_{0}^F$ 。与GD不同的是，GD的目标是进行大致的语义分割，FD的目标是提取过渡区域中的细节，这些过渡区域中的低级结构特征非常有用。因此，我们使用桥接块（ a bridge block，BB）（Qin等人，2019年）代替E4后的特征金字塔模块PPM，来利用不同感受野中的局部上下文。具体来说，它由三个扩张卷积层组成。来自 $E_4$ 和BB的特征被拼接并馈入 $D_{4}^F$ 。我们遵循U-net（Ronneberger et al.，2015）风格，在每个编码器块 $E_i$ 和解码器块 $D_{i}^F$ 之间添加跳连，以保留细节。

损失函数

FD（LFD）的训练损失由未知过渡区的α预测损失LTα和拉普拉斯损失LT lap组成（Hou和Liu，2019），即。，

LFD=LTα+LT

随后（Xu等人，2017年），α损失LTα被计算为未知过渡区中的地面真值α和预测α冰铜αF之间的绝对差值。其定义如下：

其中i表示像素索引，即∈ {0，1}表示像素i是否属于过渡区。我们加ε=10−6.计算稳定性。随后（Hou和Liu，2019），拉普拉斯损失LT lap被定义为真值和预测的拉普拉斯金字塔之间的L1距离。

其中Lapk表示拉普拉斯金字塔的第k级。我们在拉普拉斯金字塔中使用了五层。

3.4 RoSTa：语义和过渡区域的表示

(Representation of Semantic and Transition Areas)

为了研究GFM中监控信号表示格式的影响，我们采用了三种语义和过渡区表示（RoSTa）作为连接GD和FD的桥梁。

–GFM-TT 我们使用经典的3级trimap T作为GD的监控信号，GD是由内核大小为25的真值alpha matte的膨胀和侵蚀产生的。我们使用未知过渡区的地面真值α matteα作为FD的监控信号。

–GFM-FT 我们使用2级前景分割掩模F作为GD的监控信号，GD由内核大小为50的真值alpha matte侵蚀生成，以确保正确标记左侧前景部分。在这种情况下，I的面积（α>0）−F被视为过渡区，其中I（·）表示指示器功能。我们使用过渡区的地面真值α matteα作为FD的监控信号。

–GFM-BT 我们使用2级背景分割遮罩B作为glance解码器的监控信号，该信号是通过内核大小为50的真值alpha matte的膨胀生成的，以确保左背景部分正确标记。在这种情况下，B的面积−I（α>0）被视为过渡区。我们使用过渡区的地面真值α matteα作为FD的监控信号。

3.5 协作抠图（CM）

如图2所示，CM合并来自GD和FD的预测以生成最终的alpha预测。具体而言，如第3.4节所述，CM在使用不同的RoSTa时遵循不同的规则。在GFM-TT中，CM将GD预测的过渡区替换为FD预测。在GFM-FT中，CM将来自GD和FD的预测相加，以生成最终alpha matte。在GFM-BT中，CM从GD的预测中减去FD的预测，作为最终alpha matte。这样，GD负责通过学习全局语义特征来识别粗略的前景和背景，FD负责通过学习局部结构特征来对未知区域中的细节进行抠图。这种任务分解和专门设计的并行解码器使模型比中的两阶段模型更简单（Chen等人，2018；Zhang等人，2019b）。此外，两个解码器同时接受训练，使损耗可以通过CM模块反向传播到每个解码器。通过这种方式，我们的模型实现了两个解码器之间的交互，因此负责的分支可以及时纠正错误的预测。显然，它预期比两阶段框架更有效，在两阶段框架中，第一阶段的错误分割无法被后续阶段纠正，从而误导了它。

损失函数协同matting（LCM）的训练损失由α预测损失Lα、拉普拉斯损失Llap和合成损失LCMP组成，

这里，Lα和Llap是根据式（4）和式（5）计算的，但在整个α matte中。在（Xu等人，2017年）之后，通过参考（Levin等人，2007年），将合成图像的合成损失（Lcomp）计算为基于真值alpha 和预测alpha matte的合成图像之间的绝对差。它可以定义如下：

其中C（·）表示合成图像，αCM是预测的α matte乘以CM，N表示α matte中的像素数。

综上所述，训练期间使用的最终损失计算为LCE、LFD和LCM之和，即：。，

4-RSSN：一种新的合成路线

由于标记真实世界自然图像的alpha matte非常费力且成本高昂，因此通常的做法是从一些前景图像和成对的alpha matte生成大规模合成图像（Xu等人，2017）。普遍的抠图合成路线是根据式（1）通过alpha混合将一个前景与各种背景图像粘贴在一起。然而，由于前景图像和背景图像通常是从不同的分布中采样的，因此合成图像中会存在大量合成伪影，这导致合成图像与自然图像之间存在较大的域间距。合成伪影可能作为廉价特征误导模型，导致合成图像的过度拟合，并在自然图像上产生较大的泛化误差。在这一部分中，我们系统地分析了造成合成伪影的因素，包括分辨率差异、语义歧义、清晰度差异和噪声差异。为了解决这些问题，我们提出了一种新的合成路由RSSN和大规模高分辨率背景数据集BG-20k。

4.1分辨率差异和语义歧义

在图像抠图的文献中，用于构图的背景图像通常从现有的图像分类和检测基准中选择，例如MS COCO（Lin等人，2014）和PASCAL VOC（Everingham等人，2010）。但是，这些背景图像的分辨率较低，可能包含显著对象，从而导致以下两种类型的差异。

1.分辨率差异：

MS COCO（Lin et al.，2014）或Pascal VOC（Everingham et al.，2010）中的典型图像的分辨率约为389×466，这比matting数据集中的高分辨率前景图像（如Comp-1k）小得多（Xu et al.，2017）。前景图像和背景图像之间的分辨率差异将导致明显的伪影，如图3（b）所示。

[if !supportLists]2. [endif]语义歧义：

收集MS COCO（Lin et al.，2014）和Pascal VOC（Everingham et al.，2010）中的图像用于分类和目标检测任务，其中通常包含来自不同类别的显著目标，包括各种动物、人类和物体。直接将前景图像与这些背景图像粘贴在一起会导致端到端图像抠图的语义模糊。例如，如图3（b）所示，在合成图像中，背景中有一只狗在豹子旁边。使用这些图像进行训练将误导模型忽略背景动物，即，可能很少了解语义，但更多地了解差异。

为了解决这些问题，我们收集了一个名为BG-20k的大规模高分辨率数据集，作为合成的良好背景候选。我们只选择最短边至少有1080像素的图像，以减少分辨率差异。此外，为了消除语义歧义，我们去除了那些包含显著对象的图像。构建BG-20k的细节如下所示。

1. 我们从具有开放许可证的网站上收集了50k高分辨率（HD）图像，使用的关键词包括高清背景、高清视图、高清场景、高清壁纸、抽象绘画、室内设计、艺术、景观、自然、街道、城市、山、海、城市、郊区2，删除短边小于1080像素的图像，并调整左侧图像的大小，使其短边具有1080像素，同时保持原始纵横比。BG-20k图像的平均分辨率为1180×1539；

2. 我们通过深度匹配模型去除了重复图像（Krizhevsky等人，2012年）。我们采用YOLOv3（Redmon和Farhadi，2018）和物体检测方法（Chen等人，2021）来检测显著物体，然后手动双重检查以确保每个图像没有显著物体。通过这种方式，我们构建了BG-20k，其中包含20000幅高分辨率清晰图像；

3. 我们将BG-20k分成不相交的训练集（15k）和验证集（5k）。

图3（c）和图3（d）显示了使用BG-20k背景图像的构图示例。在（c）中，我们使用通过将真值alpha matte与原始图像相乘计算的前景图像进行alpha 混合，在（d）中，我们使用（Levin等人，2007）中的方法计算的前景图像进行alpha 混合。可以看出，在（c）中有明显的颜色伪影，它们在细节中混合了前景和背景的颜色。（d）中的合成图像比（c）中的合成图像更逼真。因此，我们采用（Levin et al.，2007）中的方法计算合成路线中的前景图像。BG-20k的更多示例见4.2摄影中的清晰度差异，通常通过在前景上采用大光圈和焦距（景深较浅）和模糊背景（失焦）效果，从背景背景背景中突出清晰突出的前景。图3（a）中显示了一个示例，其中豹子是关注的中心，背景模糊。以前的构图方法消除了这种影响，在合成图像和自然照片之间产生了锐度差异的区域差距。由于我们的目标是图像抠图任务，在图像中前景通常是显著的，因此我们在构图路线中研究了这种影响。具体来说，我们采用OpenCV中的平均滤波器，随机选择20、30、40、50、60的内核大小，对背景图像进行模糊模拟。由于一些自然照片可能没有模糊的背景，我们仅在构图路线中使用此技术，概率为0.5。图3（e）中显示了一个示例，其中背景从BG-20k中选择，并使用平均滤波器进行模糊。可以看出，它的风格与（a）中的原始图像相似。

4.3噪音差异

由于前景和背景来自不同的图像源，它们可能包含不同的噪声分布。这是另一种差异，它会误导模型在训练期间搜索噪声线索，导致过度拟合。为了解决这一差异，我们采用BM3D（Dabov et al.，2009）去除RSSN中前景和背景图像中的噪声。此外，我们将标准偏差为10的高斯噪声添加到合成图像中，使得前景和背景区域中的噪声分布相同。我们发现，它可以有效地提高训练模型的泛化能力。

4.4 RSSN合成路线

我们总结了管道1中拟定的合成路线RSSN。管道的输入是matting数据集，如第5.1节DIM（Xu等人，2017）中介绍的AM-2k和PM-10k，或DAPM（Shen等人，2016），以及拟议的背景图像集BG-20k。如果matting数据集提供原始图像，例如AM-2K和PM-10k，我们通过参考（Levin et al.，2007）从给定alpha matte的原始图像计算前景。我们从BG-20k中为每个前景随机抽取K个背景候选者进行数据扩充。我们在实验中设置了K=5。对于每个前景图像和背景图像，我们以0.5的概率执行去噪步骤。为了模拟大孔径的效果，我们以0.5的概率对背景图像执行模糊步骤，其中模糊核大小从{20,30,40,50,60}中随机取样。然后，我们根据alpha 混合方程（1）生成合成图像。最后，在概率为0.5的情况下，我们在合成图像中加入高斯噪声，以确保前景和背景区域具有相同的噪声分布。为此，我们生成了一个合成图像集，该图像集减少了多种差异，从而缩小了与自然图像的域间距。

5实证研究

5.1真实世界图像抠图的基准

由于生成手动标记的高质量alpha matte的繁琐过程，现实世界 matte数据集的数量非常有限，大多数以前的方法采用合成数据集，如Comp-1k（Xu等人，2017）、HATT-646（乔等人，2020）和LF（张等人，2019b）进行数据增强。但是，如第节所述。4.4，这种约定导致的合成伪影在适应真实世界图像时会导致较大的域差距。为了填补这一空白，我们提出了两个大规模高分辨率真实世界图像抠图数据集AM-2k和PM-10k，分别由2000幅动物图像和10000幅肖像图像组成，以及高质量的手动标记alpha mattes，作为真实世界图像抠图的适当训练和测试平台。我们还为不同的目的建立了两个评估轨道。详情如下。

5.1.1 AM-2k

AM-2k（Animal Matting 2000数据集）由2000张高分辨率图像组成，这些图像是从拥有开放许可证的网站上收集和精心挑选的。AM-2k包含20类动物，包括羊驼、羚羊、熊、骆驼、猫、牛、鹿、狗、大象、长颈鹿、马、袋鼠、豹子、狮子、猴子、兔子、犀牛、绵羊、老虎、斑马，每一类都有100个不同外观和不同背景的真实图像。我们确保每个图像的短边超过1080像素。然后，我们使用开源图像编辑软件（如Adobe Photoshop、GIMP等）手动注释alpha matte。我们从2000个样本中随机选择1800个样本组成训练集，其余200个样本作为验证集。图5显示了一些示例及其基本事实。

5.1.2 PM-10k

PM-10k（人像Matting 10000数据集）由10000张高分辨率图像组成，这些图像是从拥有开放许可证的网站上收集和精心挑选的。我们确保PM-10k包含多种姿势和不同背景的图像。我们通过人体关键点检测方法（Zhang等人，2021年）处理图像，以确保每个图像包含清晰和显著的人体特征。然后，我们生成AM-2k中的真值alpha matte。最后，我们将10000个样本中的9500个作为训练集，500个作为验证集。

5.1.3基准轨道

对matting模型的性能进行基准测试，该模型1）在真实图像上进行训练和测试；2）在合成图像上进行训练并在真实图像上进行测试，我们建立了以下两个评估轨道。

ORI Track（基于原始图像的轨迹）设置为对原始真实图像执行端到端的抠图任务。ORI轨迹是主要基准轨迹。COMP-Track（COMP-Images-basedtrack）用于研究域间距对图像抠图的影响。如前所述，由于合成伪影，合成图像与自然图像具有较大的域差距。如果我们能够缩小域间距并学习一种域不变的特征表示，我们可以得到一个具有更好泛化能力的模型。为此，我们对这一研究方向进行了首次尝试，从而确立了这一轨道。具体而言，我们通过将每个前景与来自COCO数据集（Lin et al.，2014）（表示为COMPCOCO）和我们的BG-20k数据集（表示为COMPBG20K）的五幅背景图像进行alpha混合，或者基于我们的BG-20k（表示为COMP-RSSN），采用第4.4节中提出的合成路线RSSN，来构建合成训练集。此外，与之前评估合成图像上的抠图方法的基准不同（Xu等人，2017年；Zhang等人，2019b；Qiao等人，2020年），我们在与ORI轨迹相同的验证集中评估真实世界图像上的抠图方法，以验证其泛化能力。

在AM-2k和PM-10k数据集的两条轨道上进行了实验：1）将提出的GFM与SOTA方法进行比较，我们在ORI轨道上对其进行了训练和评估；2）为了评估先前的合成方法和我们提出的合成路线引起的域差距的副作用，我们分别在COMP轨道上对GFM和SOTA方法进行了训练和评估，即COMP-COCO、COMP-BG20K和COMP-RSSN。

5.2评估指标和实施细节

5.2.1评估指标

按照（Rhemann et al.，2009；Zhang et al.，2019b；Xu et al.，2017）中的常见做法，我们使用均方误差（MSE）、绝对差之和（SAD）、梯度（Grad.）和连通性（Conn.）作为主要指标来评估alpha matte预测的质量。请注意，MSE和SAD度量评估预测和真值alpha matte之间的像素差异，而梯度和连接性度量支持清晰的细节。此外，我们还使用了一些辅助指标，如平均绝对差（MAD）、SAD-TRAN（过渡区域的SAD）、SAD-FG（前景区域的SAD）和SAD-BG（背景区域的SAD）来综合评估alpha matte预测的质量。MAD评估平均数量差异而不考虑图像大小，SAD-TRAN、SAD-FG和SAD-BG分别评估不同语义区域的SAD。此外，我们还比较了不同方法在参数数量、计算复杂度和推理时间方面的模型复杂度。

5.2.2实施细节

在训练期间，我们使用了类似于（Xu等人，2017年）的多尺度增强。具体来说，我们以{640×640，960×960，1280×1280}的大小随机裁剪每个选定的图像，将裁剪的图像大小调整为320×320，并以0.5的概率随机翻转它。GFM的编码器是用DenseNet-121（Huang等人，2017）、ResNet-34或ResNet-101（He等人，2016）在ImageNet数据集上预先训练初始化的。GFM在两个NVIDIA Tesla V100 GPU上接受训练。DenseNet-121的批量为4（Huang等人，2017），ResNet-34的批量为32，ResNet-101的批量为8（He等人，2016）。对于COMP轨迹，我们通过在训练过程中为每个动态前景使用五种不同的背景来合成五幅训练图像。大约花了两天时间在ORI轨道上对GFM进行500个历次的训练，在COMP轨道上进行100个历次的训练。学习率固定为1×10−两条轨道各5条。

对于基线端到端抠图方法LF（Zhang等人，2019b）和SSS（Aksoy等人，2018），我们使用了作者发布的官方代码。对于没有公共规范的SHM（Chen等人，2018年）、HATT（Qiao等人，2020年）和SHMC（Liu等人，2020年），我们根据文件重新实施了这些规范。对于未指定主干网络的SHMC（Liu等人，2020年），我们使用ResNet-34（He等人，2016年）进行公平比较。这些模型使用ORI轨道或COMP轨道上的训练集进行训练。

此外，我们还评估了几种具有表示的基于trimap的抠图方法的性能，包括DIM（Xu等人，2017）、GCA（Li和Lu，2020）和IndexNet（Lu等人，2019b）在AM-2k和PM-10k的ORITrack和COMP轨道上的性能。对于DIM（Xu等人，2017年），由于原始代码未发布，我们按照论文执行代码。对于GCA（Li和Lu，2020）和IndexNet（Lu等人，2019b），我们使用了作者发布的官方代码。

5.3定量和主观评价

5.3.1 ORI轨道上的结果

我们在AM-2k和PM-10k的ORI轨道上对几种SOTA方法（Chen等人，2018；Zhang等人，2019b；Aksoy等人，2018；Qiao等人，2020；Liu等人，2020）进行了基准测试。结果汇总在表1的顶行中。GFM-TT、GFM-FT和GFM-BT表示具有第3.4节所述不同RoSTa的拟议GFM模型。（d），（r）和（r†）分别表示使用DenseNet-121（Huang等人，2017）、ResNet-34（He等人，2016）和ResNet-101（He等人，2016）作为主干编码器。表1中有几个实证结果。

SSS（Aksoy et al.，2018）比其他方法具有更大的前景和背景SAD错误，因为它旨在提取图像中的所有语义区域，而不是像其他方法一样提取显著的动物或肖像前景。SHMC采用全球指导（Liu等人，2020年）和阶段方法LF（Zhang等人，2019b）的性能优于SSS，但在过渡区域存在较大的SAD误差。因为没有明确定义过渡区域，所以matting网络区分过渡区域细节的能力有限。HATT（Qiao et al.，2020）在过渡区和前景区获得了较小的SAD误差，因为注意力模块可以提供更好的全局外观过滤。SHM（Chen等人，2018年）的性能优于上述方法，例如，在过渡区和背景区获得的SAD误差小于HATT（Qiao等人，2020年）。我们认为，改进归功于第一阶段使用的RoSTa（即trimap）和PSPNet（Zhao等人，2017）的明确定义，其具有良好的语义分割能力。然而，SHM由于其分段流水线，在背景区域仍然存在较大的误差，这会将分割误差累积到matting网络中。

与所有SOTA方法相比，我们的GFM通过同时分割前场、背景和过渡区域上的抠图来实现最佳性能，而不管它采用哪种RoSTa和编码器主干。例如，与先前的最佳方法SHM相比，它在不同区域实现了最低的SAD误差，即AM-2k为8.24 v.s.10.26，过渡区域PM-10k为7.70 v.s.8.53，AM-2k为0.42 v.s.0.60，前景区域PM-10k为0.69 v.s.0.74，背景区域AM-2k为0.58 v.s.6.95，PM-10k为1.44 v.s.7.37（Chen等人，2018年）使用不同的RoSTa的结果具有可比性，尤其是对于FT和BT，因为它们都在图像中定义了两个类，以便GD进行分割。使用TT作为RoSTa的GFM性能最好，因为它明确定义了过渡区域以及前景和背景区域。我们还尝试了三种不同的主干网络s、 DenseNet-121（Huang et al.，2017）、ResNet-34和ResNet-101（He et al.，2016）。与其他SOTA方法相比，所有这些方法都实现了最佳性能。GFM优于其他方法的优势可以解释如下。

首先，与阶段性方法相比，GFM可以在单个阶段进行训练，协作模块充当一个有效的网关，自适应地将matting错误传播到负责的分支。其次，与采用全局指导的方法相比，GFM将端到端matting任务显式建模为两个独立但协作的任务演讲子任务由两个不同的解码器完成。此外，它使用协作模块根据RoSTa的定义合并预测，RoSTa明确定义了每个解码器的角色。

从图6和图7中，我们可以发现类似的观察结果。SHM（Chen et al.，2018）、LF（Zhang et al.，2019b）和SSS（Aksoy et al.，2018）未能分割一些前景部分，这意味着其分段网络结构的劣势。HATT（Qiao等人，2020年）和SHMC（Liu等人，2020年）努力获得过渡区域的清晰细节，因为全球指南有助于识别语义区域，而对细节的抠图不太有用。与它们相比，我们的GFM由于具有统一模型的优势而获得了最佳结果，该模型使用单独的解码器处理前景/背景和过渡区域，并以协作方式对其进行优化。更多的GFM结果可以在演示视频中找到。

5.3.2COMP-Track结果

我们评估了最佳SOTA方法SHM（Chen等人，2018），以及在AM-2k和PM-10k的COMP轨道上使用三个不同主干的GFM，包括COMP-COCO、COMP-BG20K和COMP-RSSN。结果总结在表1的底部行中，从中我们得到了一些实证结果。首先，当使用MS COCO数据集（Lin et al.，2014）的图像作为背景来训练matting模型时，GFM在整体图像SAD方面的表现远远好于SHM（Chen et al.，2018），即AM-2k为46.16、30.05和33.79 v.s.182.70，PM-10k为61.69、34.58和33.90 v.s.168.75，验证了所提出的模型在推广上优于两阶段模型。其次，使用ResNet-34或ResNet-101（He等人，2016）的GFM性能优于使用DenseNet-121（Huang等人，2017），这意味着ResNet中的残差结构在提取更准确的语义表示方mask有更好的表示能力，在处理合成数据和真实数据之间的领域差异方mask有更好的泛化能力，特别是在COMP-BG20K轨道和COMPRESSN轨道的设置中。第三，当使用拟议BG-20k数据集的背景图像训练matting模型时，所有方法的误差都显著降低，尤其是对于SHM（Chen等人，2018），即AM-2k从182.70降低到52.36，PM-10k从168.75降低到34.06，这主要归因于背景区域的SAD误差降低，即。，AM-2k为134.43至33.52，PM-10k为123.62至11.55。GFM（d）、GFM（r）和GFM（r†）的趋势相同。这些结果证实了我们的BG-20k值，它有助于减少分辨率差异并消除背景区域的语义歧义。

[if !supportLists]第四，[endif]当使用建议的RSSN进行训练时，SHM的误差可以进一步减小（Chen等人，2018），即AM-2k的误差从52.36减小到23.94，PM-10k的误差从34.06减小到22.02，GFM（d）的误差从25.19减小到19.19，21.54减小到18.15，GFM（r）的误差从16.44减小到15.88，从20.29减小到13.84，GFM（r）的误差从15.88减小到14.78，从18.11减小到12.51这一改进归功于RSSN中的合成技术：1）我们模拟了大孔径效应以减少锐度差异；2）去除前场/背景噪声，并在合成图像中加入噪声，以减少噪声差异。请注意，与基于MS COCO数据集的传统合成方法相比，使用RSSN时，对于AM-2k，SHM的SAD误差（Chen et al.，2018）从182.70大幅降低至23.93，对于PM-10k，从168.75大幅降低至22.02，甚至与使用原始图像进行训练获得的合成方法相当，即。，AM-2k为17.81，PM-10k为16.64。结果表明，提出的合成路由RSSN可以显著缩小域间距，有助于学习下不变特征。最后，我们还在COMP-RSSN轨道上使用GFM（d）中的不同RoSTa进行了实验，其结果与ORI-RSSN轨道上的结果具有相似的趋势。

5.3.3 基于Trimap的抠图方法的结果

我们还针对AM-2k和PM-10k的ORI-Track和COMP-Track，对几种基于SOTA trimap的抠图方法进行了基准测试（Xu等人，2017年；Li和Lu，2020年；Lu等人，2019b）。结果汇总在表2中。可以看出，基于trimap-based方法的性能在两条轨道上都遵循与trimap-free matting方法相同的趋势。对于所有三种方法，使用MS COCO（Lin et al.，2014）背景和我们数据集中的原始图像作为背景对它们进行训练之间存在性能差距。每种方法的差距都不同，即两个数据集上的DIM分别为7.59至6.82、6.78至6.00、GCA为8.97至7.28、7.45至6.16、IndexNet为9.59至7.40、7.36至6.44。和往常一样，在使用BG-20k和RSSN后，所有方法在两个数据集上的误差都减小了。此外，有两点需要注意，1）即使使用RSSN，基于trimap的抠图方法仍存在性能差距，值得进一步研究；2）基于trimap的抠图方法在SAD-TRAN方面的性能优于我们的GFM，即在AM-2k上为6.82到8.24，在PM-10k上为6.00到7.70，这意味着可以在过渡区域进一步改进GFM。

5.3.4使用基于Trimap的抠图方法的GFM

为了进一步研究GFM的有效性，我们在表3中提供了AM-2k ORI轨道上几种变体的评估结果，包括

1）DIM：基于trimap的matting方法DIM（Xu等人，2017），该方法在真值trimap上进行训练和测试；

2） GFM（d）：我们提出的以DesNet-121为主干的GFM；

3） GFM（d）+DIM：我们用DIM的结果替换过渡区的预测alpha matte，该结果在真值trimap上训练，同时在GFM GD生成的预测trimap上测试；

4）SHM（Chen等人，2018）：一个两阶段的“trimap预测+基于trimap的抠图方法”网络，其基于trimap的抠图方法与DIM非常相似。和往常一样，SAD、MSE、MAD、Grad和Conn都是在整个图像上计算的。分别在过渡区、前景区和背景区计算SADTRAN、SAD-FG和SAD-BG。

我们可以从表3中得出几个结论。首先，GFM仍然是所有无trimap抠图方法中性能最好的。具体而言，与“GFM+DIM”变体相比，我们的端到端GFM模型的性能仍然更好，尤其是在过渡区域，即GFM（d）的8.24到9.54，该变体使用基于trimap的抠图方法DIM（Xu等人，2017年）来获得过渡区域的alpha matte。这些结果验证了我们的GFM中FD的有效性。其次，将DIM与“GFM+DIM”变体进行比较，我们可以发现DIM对trimap非常敏感，例如，GFM（d）为6.82到9.54。这也可以解释GFM和“GFM+DIM”变体之间的上述性能差距。这些结果验证了我们提出的一级“共享编码器+多任务解码器”结构的有效性，因为由于协作matting模块，FD可以适应GD预测的trimap。这可以通过比较GFM（d）和SHM（Chen等人，2018）进一步证明，SHM是一种典型的两阶段结构。第三，与在真值trimap上训练和测试的基于trimap的方法DIM相比，在过渡区（SAD 6.82至8.24）仍有改进GFM的空间，这可能是未来的工作。

5.4 消融研究

5.4.1 ORI轨道上的结果

为了进一步验证GFM设计结构的益处，我们对AM-2k ORI轨道上的几种GFM变体进行了烧蚀研究，包括1）由Qin等人（Qin等人，2019）激发，使用ResNet-34（He等人，2016）作为主干时，在GFM编码器中，我们将E0的卷积核从7×7的步长2修改为3×3的步长1，删除了E0中的第一个最大池层，并在E4之后添加了两个编码器层E5和E6，每个编码器层都有一个最大池层和三个基本RESBlock，分别带有步长2和512个过滤器，表示“r2b”；2）使用单个解码器替换GFM中的FD和GD，表示“单个”；3）排除GD中的金字塔池模块（PPM），以及4）排除FD中的桥接块（BB）。结果汇总在表4的顶行中。首先，当使用r2b结构时，与GFM-TT（r）相比，所有度量都得到了改进，这归因于编码器部分早期的较大特征映射。然而，它比GFM-TT（r）有更多的参数和计算，这将在后面讨论。其次，使用单个解码器会导致性能下降，即GFM-TT（d）的SAD从10.26增加到13.79，GFM-TT（r）的SAD从10.89增加到15.50，这证实了将端到端图像抠图任务分解为两个协作子任务的价值。第三，在没有PPM的情况下，GFM-TT（d）的SAD从10.26增加到10.86，GFM-TT（r）的SAD从10.89增加到11.90，这表明PPM的全局上下文特征由于其更大的感受野有利于GD中的语义切分。此外，与排除PPM相比，使用一个PPM块可以获得更好的性能，但仍然落后于默认设置，即使用五个PPM块。第四，在没有BB的情况下，GFMTT（d）的SAD从10.26增加到11.27，GFM-TT（r）的SAD从10.89增加到11.29，这表明从BB学到的局部结构特征有利于FD中的抠图，因为其卷积层扩张。

5.4.2COMP-Track结果

为了验证拟议合成路线RSSN中的不同技术，我们对RSSN的几种变体进行了烧蚀研究，包括1）仅使用大孔径效应模拟，表示“w/模糊”；2）仅去除前景和背景噪声，表示“w/去噪”；3）仅在合成图像上添加噪声，表示“w/噪声”；4）使用RSSN中的所有技术，表示“w/RSSN”。在这些实验中，我们使用BG-20k对背景图像进行采样。结果汇总在表4的底部行中。首先，与第一行中列出的基线模型（通过alpha混合使用合成图像进行训练）相比，所提出的合成路线中的每种技术都有助于在所有度量方面提高matting性能。其次，模拟大孔径效应和在合成图像上添加噪声比去噪更有效。第三，不同的技术相互补充，因为它们有助于RSSN协作实现最佳性能

5.5 RoSTa集成和混合分辨率测试

5.5.1 RoSTa集成

由于TT、FT和BT各有优势，如何设计网络以从中获益仍是一个挑战。在本文中，我们探讨了AM-2k上的两种RoSTa集成技术，并将其与单个RoSTa进行了比较。请注意，为了公平比较，我们将所有方法的测试分辨率设置为1/3。结果如表5所示。

RoSTa积分的一个简单解决方案是采用集合，采用由所有RoSTa模型获得的alpha matte中值，在表5中表示为EN中值。在所有评估指标上，即SAD 10.62至11.28、11.76和12.26，结果均优于每个单独的RoSTa。然而，与其他测试方法相比，EN中值的测试速度非常慢。为了解决这个问题，我们设计了一个新的GFM变体，带有RoSTa集成模块（RIM），以可学习的方式使用所有三种表示。具体而言，我们将GD和FD的最后一层修改为三个特定于RoSTa的层，其中来自特定RoSTa层的每对输出都经过协作Matting（CM）模块以获得alpha matte。然后将三个alpha matte连接在一起并送入RIM。RIM由一个串联层、一个1×1卷积层（用于将特征通道从3转换为16）和一个挤压和激发（SE）注意模块（Hu等人，2018）组成，用于帮助重新校准特征并选择信息量最大的特征，以通过另一个1×1卷积层预测更好的alpha matte。我们采用了与原始GFM相同的训练损耗，除了有三组损耗对应于三个RoSTa特定层的输出和RIM后最终alpha matte的CM损耗。这样，就可以训练网络学习更好的RoSTa集成。

如表5所示，GFM-RIM的结果在四个评估指标上优于每个单独的RoSTa，并且在MSE上实现了最佳性能，甚至优于EN中位数，即0.0025到0.0026。值得注意的是，GFM-RIM的测试速度与每个RoSTa的测试速度相当，但运行速度远快于EN中位数。总之，GFM-RIM在性能和速度之间做出了很好的权衡。更有效的RoSTa集成技术的研究值得更多的努力。

5.5.2混合分辨率测试

为了研究在测试过程中使用不同下采样率平衡GD和FD的影响，我们进行了几次实验，并在表6中报告了结果。为简单起见，我们将每一步的下采样率表示为1/d1和1/d2，这取决于d1∈ {2,3,4}，d2∈ {2,3,4}和d1≥ d2。较大的d1增加感受野，有利于GD，而较小的d2有利于FD，在高分辨率图像中具有清晰的细节。然后我们发现，当使用混合分辨率测试策略时，当d1=3和d2=2时，性能达到最佳，但以较慢的推理时间为代价。

为了解决这个问题，我们搜索了下采样率的最佳超参数设置，以便在两个解码器之间实现更好的平衡。从表6可以看出，当FD的比率为1/2，GD的比率为1/3时，GFM达到最佳效果。因此，我们尝试搜索两个解码器相同的最佳超参数，即从1/2到1/3，步长为0.2。可以看出，当d1=d2且等于2.6时，GFM实现了最佳性能，即，将测试图像的大小调整为其原始大小的5/13。所有指标的结果与之前的最佳设置相当，即混合分辨率为1/2和1/3。还需要注意的是，当两个解码器使用相同的比率时，只有一个前向传递，这比混合分辨率测试的计算效率要高得多。

5.6模型复杂性分析

我们在一幅尺寸为800×800的图像上比较了每种方法的模型参数数量（百万，表示“M”）、计算复杂度（表示“GMac”）和推理时间（秒，表示“s”）。所有方法均在配备Intel Xeon CPU（2.30GHz）和NIVDIA Tesla V100 GPU（16GB内存）的服务器上执行。如表7所示，使用DenseNet-121（Huang et al.，2017）或ResNet-34或ResNet-101（He et al.，2016）作为主干的GFM在运行速度上超过了SHM（Chen et al.，2018）、LF（Zhang et al.，2019b）、HATT（Qiao et al.，2020）和SHMC（Liu et al.，2020），即处理图像的时间约为0.2085s和0.1734s。就参数而言，GFM的参数比除LF外的所有SOTA方法都少（Zhang等人，2019b）。就计算复杂性而言，当采用ResNet-34（He等人，2016）作为主干时，GFM的计算量比所有SOTA方法都少，即132.28 GMAC。当采用DenseNet-121（Huang等人，2017年）时，其计算量仅比SHMC（Liu等人，2020年）多，但更小。至于GFM（r2b）和GFM（r†），它们有更多的参数和计算，但推理时间相似。虽然它可以获得更好的结果，但在实际应用中应该在性能和复杂性之间进行权衡。一般来说，GFM重量轻，计算效率高。

6 结论和今后的工作

在本文中，我们提出了一种新的用于端到端自然图像抠图的深度抠图模型。它解决了抠图任务中的两个挑战：1）识别不同类别中具有不同形状、大小和纹理的各种前景；2）从模糊背景中提取细节。具体地说，第一个任务设计了一个扫视解码器，后一个任务设计了一个聚焦解码器，而它们共享一个编码器，并进行联合训练。因此，它们协同完成了抠图任务，并获得了比最先进的抠图方法更高的性能。此外，我们还研究了合成图像和自然图像之间的域差异问题，这表明常用的数据增强方法可能不适用于端到端matting模型的训练。为了解决这个问题，我们建立了两个大规模的真实世界图像matting数据集AM-2k和PM-10k，其中包含来自20个类别的2000幅高分辨率动物图像和10000幅高分辨率肖像图像以及手动标记的alpha matte。此外，我们还系统地分析了影响构图质量的因素，包括分辨率、清晰度、语义和噪声，并结合大规模背景数据集BG-20k，提出了一种新的构图路线，该背景数据集包含20000幅高分辨率图像，无显著目标，它可以有效地解决域差异问题。大量的实验验证了所提出的方法优于最先进的方法。我们相信所提出的抠图方法和合成路线将有助于基于trimap和端到端图像抠图的研究。此外，所提出的数据集可以提供一个测试平台来研究与领域差异问题相关的抠图问题。

尽管GFM在客观指标和主观评价方面都优于最先进的方法，但在未来的工作中仍存在一些局限性。首先，在对SAD-TRAN、SADFG和SAD-BG证明的误差源进行详细分析后，过渡区域的误差大于前景和背景区域的SAD，即8.24 v.s.2.01或7.80 v.s.4.09，即使过渡区域的大小通常远小于前景和背景区域的大小。它告诉我们，通过设计更有效的聚焦解码器以及利用一些结构感知和感知损失，可以进一步提高性能。其次，由于生成合成数据集所需的成本比构建基于自然图像的数据集要容易得多，因此仍有改进基于合成的模型的余地，以匹配通过域自适应方法使用原始图像训练的模型（Zhang et al.，2019a）。此外，鉴于alpha matting和alpha混合是反问题，如果我们在单个框架中对它们进行建模，那么看看这两个任务是否相互受益是很有趣的。第三，当前可用的自然图像抠图数据集仅包含具有小过渡区域（如人或动物）的显著前景图像，如何扩展数据集以及扩展抠图方法以处理半透明或长距离过渡区域（如塑料袋或雨滴），仍然是一个公开的挑战。为此，我们的GFM中的两个解码器可以修改以适应不同的抠图图像类型，即，包含显著对象或半透明对象。例如，可以研究像GD的trimap这样的新表示，以帮助FD关注那些不同类型图像中的显式过渡区域。第四，研究GD和FD之间的相互作用，以实现更有效的协作学习计划，也值得付出更多的努力。在图4和补充视频中。

扫视-聚焦网络：连接现实与合成数据的端到端抠图网络

推荐阅读更多精彩内容