Gaussian Head Avatar 基于动态高斯的超高保真头像

摘要

创建高保真的3D头像一直是研究的热点，但在轻量级稀疏视图设置下仍然存在很大的挑战。在本文中，提出了用可控3D高斯表示的高斯头像来进行高保真头像建模。该研究优化了中性三维高斯和完全学习的基于MLP的变形场，以捕获复杂的表达式。这两部分相得益彰，使得我们的方法能够在保证表达准确性的同时，对细粒度的动态细节进行建模。此外，为了保证训练过程的稳定性和收敛性，我们设计了一种基于隐式SDF和Deep移动四面体的几何引导初始化策略。实验表明，我们的方法优于其他先进的稀疏视图方法

1、Introduction

通常实现实现高保真动画，它们需要从密集的多视角视频中重建和跟踪精确的几何图形，从而限制了它们在轻量级设置中的应用。NeRF的应用可以跳过几何重建和跟踪步骤，而是直接学习高质量的基于NeRF的头像，并且有工作已经验证了NeRF可以应用于稠密视图或者系数视图。文章提出了高斯头像( Gaussian Head Avatar )，这是一种利用3D高斯散斑进行超高保真头化身建模的新表达方式。

从前的头像生成方式通常使用的是LBS方法，但其无法表示夸张和细粒度的表情。三维头部高斯提出了一个完全可学习的表情条件形变场，避免了基于LBS的构造方法的有限能力。具体来说，我们将带有表达系数的三维高斯的位置输入到MLP中，直接预测从中性表达到目标表达的位移。类似地，我们以头部姿态为条件来控制非面部区域的运动，如颈部。3D高斯表示具有强大的重构高频细节的能力，使我们的方法能够学习到精确的形变场。反过来，学习到的精确形变场有利于动态高斯头部模型拟合更多的动态细节。因此，我们的方法能够重建具有表现力的人头更细粒度的动态细节。

总结下来，该论文的贡献可以概括为：

我们提出了一种新的头像表示方法Gaussian Head Avatar，它使用可控的动态3D高斯来建模表情丰富的人类头像，生成了2K分辨率的超高保真合成图像。
为了建模高频动态细节，我们在3D头部高斯上使用了一个完全学习的变形场，它精确地建模了极其复杂和夸张的面部表情。
我们精心设计了一种有效的初始化策略，利用隐式表示来初始化几何和变形，从而在训练Gaussian Head Avatar时实现了高效和鲁棒的收敛。
受益于这些贡献，我们的方法在光照下超过了最近的先进方法

2、相关工作

（1）3D头像重建

三维头部重建可大量应用于电影行业，然而这类方法需要大量的计算，随着研究的进展有很多方法都能够做到快速重建，但是基于网格的头像往往都会出现纹理模糊的问题。最新的方法为基于NeRF的方法拓展到系数视图重建任务中。基于隐式SDF或基于NeRF的方法可以学习全头模板，而不受固定拓扑结构的限制，从而更好地建模复杂的发型和眼镜。Cao等人采用了一种建立在网格表面上的局部NeRF的混合表示，能够实现高保真渲染和灵活的表情控制。从单目视频中重建三维头像也是一个热门但具有挑战性的研究课题。最新的方法探索了基于隐式SDF 、点云或NeRF 构建头部化身模型。

（2）基于点的渲染

点元作为一种离散的、非结构化的表达方式，可以有效地拟合具有任意拓扑结构的几何。Gaussian抛雪球显示了其优越的性能，在新颖的视图合成质量和渲染速度方面都超过了NeRF。

3、综述

上图展示的是高斯图像重建的方法，首先对视频的每张图像后的背景，并联合估计3DMM模型，特征点和表情基。左边绿色的框表示的是初始化阶段，首先我们重建一个基于SDF的中性几何体（Neutral Mesh），并且从上面的图像中训练出一个形变场（Deform MLP）和颜色场（Color MLP）。接下来，我们通过DMTet提取中性网格来初始化中性高斯，同时变形和颜色MLP也从初始化阶段继承下来。在高斯头像的训练阶段，给定驱动表情系数作为条件，通过动态生成器（Dynamic Generator）将中性高斯变形为目标表情。最后，给定相机视图，将表达性高斯渲染为特征图，并将其输入卷积超分辨率网络，生成高分辨率化身图像。整个模型在多视角RGB视频的监督下进行优化。

4、具体方法

（1）头像代表

X代表的是每一个点的位置，C代表多通道的颜色，Q代表旋转，S代表尺度，A代表不透明度，μ代表相机的参数，I在论文中表示的是5125123的图像。其中Q是一个四元数。文章的任务是重建一个由表情基控制的动态头像。因此，文章将头像建模成以表情为条件的动态3D高斯。

具体来说，作者首先构造了一个与表情无关的中性高斯模型：{ X0，F0，Q0，S0，A0 }。F表示逐点特征向量作为其内在属性。值得注意的是，公式中没有定义中性颜色，而是直接从点特征向量F0中预测表情相关的动态颜色。然后，我们构造了一个基于MLP的表达式条件动态生成器Φ来产生所有对中性模型的额外动态变化。总体而言，整个高斯头像可以表示为：

θ表示表情基，β代表的是头部的姿态。Φ表示的是图中的动态生成器。最终获得{ X，F，Q，S，A }。

X‘就是图中初始化中的Expressive Mesh，X0表示的是中性模型点的位置，f exp是表情影响，f pose是头部位姿的影响。关于λ的计算如下：

具体来说，在数据预处理阶段先通过3DMM模型估计出正则模型的3D地标点P0。其中x∈X0表示一个中性高斯的位置，dist( x , P0)表示点x到3D路标P的最小距离。t1 = 0.15和t2 = 0.25是预定义的超参数，当头部长度设置为近似1时。

上述是各种各样的点的位置预测，下面则是颜色的变化，动态细节的建模通常需要随表情变化的动态颜色。

高斯的旋转、尺度和不透明度也是需要动态计算的，公式如下：

最后，我们对高斯函数施加刚性旋转和平移T ( · )，将其从正则空间转换到世界空间。值得注意的是，该变换只针对方向变量{ X′，Q′}，而多通道颜色、尺度和不透明度{ C′，S′，A′}不具有方向性，因此保持不变。

（2）训练过程 Traning

这部分主要是描述了训练的流程和损失函数，在每一次迭代的过程中，首先我们要经过上面的公式生成一个图像I，这是一个三通道的512512的图像。然后将这个图像送入到一个超分辨率的网络中，生成成三通道的20482048的图像，这样就可以恢复更多的细节信息了。

对于损失函数，文章使用前景RGB图像作为Ground True，关于损失函数，使用了L1 Loss和VGG感知损失。

Ihr表示的是生成的图片，用Ilr表示32通道图像IC的前3个通道。我们设定权重λ vgg = 0.1，λlr = 0.1。

（3）几何引导的初始化 Geometry-guided initialization

初始化的阶段需要优化一个guidance model，包括neutral mesh, deformation MLP和color MLP。

由于高斯表示是无序和非结构化的，梯度传播回一点后很难继续传播到空间中的邻近点。因此，随机初始化中性高斯通常会导致无法收敛，用FLAME模型初始化无法建模长发型和肩膀。为了克服这个问题，我们提出使用隐式符号距离场( SDF )表示和深度四面体( DMTet )来首先重建一个中性网格来初始化高斯位置。文章还对颜色MLPs和形变MLPs进行了粗略优化。

表示和渲染。具体来说，我们首先构造一个MLP f sdf来表示一个符号距离场。此外，该网络还将输出每个点对应的特征向量，用于预测点的颜色。它可以表述为：

用s表示SDF值，η表示特征向量，x表示点的位置。SDF场通过Deep Marching Tetrahedra (DMTet) 转化成mesh，而顶点的颜色和形变通过MLP进行预测。然后对mesh渲染RGB图像和mask，在多视角RGB图像的监督下优化网络参数。另外还用到landmarks作为监督信号，训练表情形变MLP。可以差分地提取一个网格的顶点X，每个顶点的特征向量F和它的面。预测位移并将其添加到顶点位置。将高斯位置X0替换为顶点位置X。最后，我们还对变形的网格施加刚性的旋转和平移，将其转换到世界空间，并根据相机参数μ通过可微的光栅化将变形的网格渲染成图像I和掩膜M。

损失函数与训练。接下来，我们可以构造RGB损失和轮廓损失来训练引导模型：

其中，Igt和Mgt分别表示真值RGB图像和掩膜。IOU ( · )表示交并比度量。值得注意的是，只有32通道图像I的前三个通道R，G，B受到真实RGB图像的监督。我们还使用了估计的3D面部特征点Pgt，如Sec所述。3为MLP的表达变形提供粗略的指导。具体来说，我们将中性3D特征点P0输入到表情形变MLP中，以预测表情条件特征点P：

然后以3D人脸特征点Pgt作为监督构建损失函数：

此外，我们引入3个约束：( 1 )正则项Loffset，惩罚所有非零位移，以防止两个变形MLP学习一个全局常量偏移量；( 2 )正则项Llmk，限制三维地标处的SDF值接近于零，使地标位于网格表面；( 3 )拉普拉斯项Llap，在一定程度上保持提取的网格光滑。总的来说，总损失函数被表述为：

用λ表示各项的权重，设置如下：λsil = 0.1，λdef = 1，λoffset = 0.01，λlmk = 0.1，λlap = 100。我们将上述MLPs与中性3D地标P0联合优化，直到所有MLPs收敛。

参数传递。最后，我们使用粗略训练好的引导模型来初始化高斯头部模型。具体来说，我们通过DMTet提取具有顶点X和顶点特征F的中性网格，并直接将它们的值分别分配给中性高斯的中性位置X0 = X和顶点特征向量F0 = F。对于其他中性属性，我们采用Gaussian抛雪球中的初始化策略。然后，我们为下一阶段保留所有四个优化的MLPs，同时随机初始化两个属性MLPs和超分辨率网络Ψ的参数。

5、实验和总结

实验结果表明，所提出的高斯头像方法优于现有的国家的最先进的方法在渲染质量和表达精度。具体而言，该方法实现了2K分辨率的超高保真度合成图像，准确地模拟了极其复杂和夸张的面部表情，并在生成高频细节方面表现出显着的改进。与以前的方法相比，该方法还显示出峰值信噪比（PSNR）和结构相似性指数（SSIM）的轻微改善，以及学习感知图像块相似性（LPIPS）和Fréchet起始距离（FID）的显着改善，表明上级图像质量和表达转移准确性。此外，与现有方法相比，该方法能够合成更高保真的图像，具有更准确的表情转移和更丰富的情感。

本文介绍了一种称为高斯头像的新方法，用于在2K分辨率下创建具有可控表情的高保真3D头像。该方法利用可控的动态3D高斯模型来模拟富有表现力的人类头部化身，并采用完全学习的变形场来准确捕捉复杂和夸张的面部表情。作者还提出了一种基于隐式表示的有效初始化策略，以确保稳定的训练和收敛。实验结果表明，该方法优于现有的国家的最先进的方法在渲染质量和表达的准确性。此外，本文还讨论了所提出的方法的局限性和伦理考虑。

6、应用场景和领域

该技术可以用于所有面部生成的场景和领域，例如：电影、游戏行业

论文：https://yuelangx.github.io/gaussianheadavatar/assets/Gaussian_Head_Avatar.pdf

项目网址：https://yuelangx.github.io/gaussianheadavatar/