Gaussian Head Avatar 基于动态高斯的超高保真头像

摘要

创建高保真的3D头像一直是研究的热点,但在轻量级稀疏视图设置下仍然存在很大的挑战。在本文中,提出了用可控3D高斯表示的高斯头像来进行高保真头像建模。该研究优化了中性三维高斯和完全学习的基于MLP的变形场,以捕获复杂的表达式。这两部分相得益彰,使得我们的方法能够在保证表达准确性的同时,对细粒度的动态细节进行建模。此外,为了保证训练过程的稳定性和收敛性,我们设计了一种基于隐式SDF和Deep移动四面体的几何引导初始化策略。实验表明,我们的方法优于其他先进的稀疏视图方法

1、Introduction

通常实现实现高保真动画,它们需要从密集的多视角视频中重建和跟踪精确的几何图形,从而限制了它们在轻量级设置中的应用。NeRF的应用可以跳过几何重建和跟踪步骤,而是直接学习高质量的基于NeRF的头像,并且有工作已经验证了NeRF可以应用于稠密视图或者系数视图。文章提出了高斯头像( Gaussian Head Avatar ),这是一种利用3D高斯散斑进行超高保真头化身建模的新表达方式。

从前的头像生成方式通常使用的是LBS方法,但其无法表示夸张和细粒度的表情。三维头部高斯提出了一个完全可学习的表情条件形变场,避免了基于LBS的构造方法的有限能力。具体来说,我们将带有表达系数的三维高斯的位置输入到MLP中,直接预测从中性表达到目标表达的位移。类似地,我们以头部姿态为条件来控制非面部区域的运动,如颈部。3D高斯表示具有强大的重构高频细节的能力,使我们的方法能够学习到精确的形变场。反过来,学习到的精确形变场有利于动态高斯头部模型拟合更多的动态细节。因此,我们的方法能够重建具有表现力的人头更细粒度的动态细节。

总结下来,该论文的贡献可以概括为:

  • 我们提出了一种新的头像表示方法Gaussian Head Avatar,它使用可控的动态3D高斯来建模表情丰富的人类头像,生成了2K分辨率的超高保真合成图像。
  • 为了建模高频动态细节,我们在3D头部高斯上使用了一个完全学习的变形场,它精确地建模了极其复杂和夸张的面部表情。
  • 我们精心设计了一种有效的初始化策略,利用隐式表示来初始化几何和变形,从而在训练Gaussian Head Avatar时实现了高效和鲁棒的收敛。
  • 受益于这些贡献,我们的方法在光照下超过了最近的先进方法

2、相关工作

(1)3D头像重建

三维头部重建可大量应用于电影行业,然而这类方法需要大量的计算,随着研究的进展有很多方法都能够做到快速重建,但是基于网格的头像往往都会出现纹理模糊的问题。最新的方法为基于NeRF的方法拓展到系数视图重建任务中。基于隐式SDF或基于NeRF的方法可以学习全头模板,而不受固定拓扑结构的限制,从而更好地建模复杂的发型和眼镜。Cao等人采用了一种建立在网格表面上的局部NeRF的混合表示,能够实现高保真渲染和灵活的表情控制。从单目视频中重建三维头像也是一个热门但具有挑战性的研究课题。最新的方法探索了基于隐式SDF 、点云或NeRF 构建头部化身模型

(2)基于点的渲染

点元作为一种离散的、非结构化的表达方式,可以有效地拟合具有任意拓扑结构的几何。Gaussian抛雪球显示了其优越的性能,在新颖的视图合成质量和渲染速度方面都超过了NeRF。

3、综述

上图展示的是高斯图像重建的方法,首先对视频的每张图像后的背景,并联合估计3DMM模型,特征点和表情基。左边绿色的框表示的是初始化阶段,首先我们重建一个基于SDF的中性几何体(Neutral Mesh),并且从上面的图像中训练出一个形变场(Deform MLP)和颜色场(Color MLP)。接下来,我们通过DMTet提取中性网格来初始化中性高斯,同时变形和颜色MLP也从初始化阶段继承下来。在高斯头像的训练阶段,给定驱动表情系数作为条件,通过动态生成器(Dynamic Generator)将中性高斯变形为目标表情。最后,给定相机视图,将表达性高斯渲染为特征图,并将其输入卷积超分辨率网络,生成高分辨率化身图像。整个模型在多视角RGB视频的监督下进行优化。

4、具体方法

(1)头像代表


X代表的是每一个点的位置,C代表多通道的颜色,Q代表旋转,S代表尺度,A代表不透明度,μ代表相机的参数,I在论文中表示的是5125123的图像。其中Q是一个四元数。文章的任务是重建一个由表情基控制的动态头像。因此,文章将头像建模成以表情为条件的动态3D高斯。

具体来说,作者首先构造了一个与表情无关的中性高斯模型:{ X0,F0,Q0,S0,A0 }。F表示逐点特征向量作为其内在属性。值得注意的是,公式中没有定义中性颜色,而是直接从点特征向量F0中预测表情相关的动态颜色。然后,我们构造了一个基于MLP的表达式条件动态生成器Φ来产生所有对中性模型的额外动态变化。总体而言,整个高斯头像可以表示为:

θ表示表情基,β代表的是头部的姿态。Φ表示的是图中的动态生成器。最终获得{ X,F,Q,S,A }。

X‘就是图中初始化中的Expressive Mesh,X0表示的是中性模型点的位置,f exp是表情影响,f pose是头部位姿的影响。关于λ的计算如下:

具体来说,在数据预处理阶段先通过3DMM模型估计出正则模型的3D地标点P0。其中x∈X0表示一个中性高斯的位置,dist( x , P0)表示点x到3D路标P的最小距离。t1 = 0.15和t2 = 0.25是预定义的超参数,当头部长度设置为近似1时。

上述是各种各样的点的位置预测,下面则是颜色的变化,动态细节的建模通常需要随表情变化的动态颜色。

高斯的旋转、尺度和不透明度也是需要动态计算的,公式如下:

最后,我们对高斯函数施加刚性旋转和平移T ( · ),将其从正则空间转换到世界空间。值得注意的是,该变换只针对方向变量{ X′,Q′},而多通道颜色、尺度和不透明度{ C′,S′,A′}不具有方向性,因此保持不变。

(2)训练过程 Traning

这部分主要是描述了训练的流程和损失函数,在每一次迭代的过程中,首先我们要经过上面的公式生成一个图像I,这是一个三通道的512512的图像。然后将这个图像送入到一个超分辨率的网络中,生成成三通道的20482048的图像,这样就可以恢复更多的细节信息了。

对于损失函数,文章使用前景RGB图像作为Ground True,关于损失函数,使用了L1 Loss和VGG感知损失。

Ihr表示的是生成的图片,用Ilr表示32通道图像IC的前3个通道。我们设定权重λ vgg = 0.1,λlr = 0.1。

(3)几何引导的初始化 Geometry-guided initialization

初始化的阶段需要优化一个guidance model,包括neutral mesh, deformation MLP和color MLP。

由于高斯表示是无序和非结构化的,梯度传播回一点后很难继续传播到空间中的邻近点。因此,随机初始化中性高斯通常会导致无法收敛,用FLAME模型初始化无法建模长发型和肩膀。为了克服这个问题,我们提出使用隐式符号距离场( SDF )表示和深度四面体( DMTet )来首先重建一个中性网格来初始化高斯位置。文章还对颜色MLPs和形变MLPs进行了粗略优化。

表示和渲染。具体来说,我们首先构造一个MLP f sdf来表示一个符号距离场。此外,该网络还将输出每个点对应的特征向量,用于预测点的颜色。它可以表述为:

用s表示SDF值,η表示特征向量,x表示点的位置。SDF场通过Deep Marching Tetrahedra (DMTet) 转化成mesh,而顶点的颜色和形变通过MLP进行预测。然后对mesh渲染RGB图像和mask,在多视角RGB图像的监督下优化网络参数。另外还用到landmarks作为监督信号,训练表情形变MLP。可以差分地提取一个网格的顶点X,每个顶点的特征向量F和它的面。预测位移并将其添加到顶点位置。将高斯位置X0替换为顶点位置X。最后,我们还对变形的网格施加刚性的旋转和平移,将其转换到世界空间,并根据相机参数μ通过可微的光栅化将变形的网格渲染成图像I和掩膜M。

损失函数与训练。接下来,我们可以构造RGB损失和轮廓损失来训练引导模型:

其中,Igt和Mgt分别表示真值RGB图像和掩膜。IOU ( · )表示交并比度量。值得注意的是,只有32通道图像I的前三个通道R,G,B受到真实RGB图像的监督。我们还使用了估计的3D面部特征点Pgt,如Sec所述。3为MLP的表达变形提供粗略的指导。具体来说,我们将中性3D特征点P0输入到表情形变MLP中,以预测表情条件特征点P:

然后以3D人脸特征点Pgt作为监督构建损失函数:

此外,我们引入3个约束:( 1 )正则项Loffset,惩罚所有非零位移,以防止两个变形MLP学习一个全局常量偏移量;( 2 )正则项Llmk,限制三维地标处的SDF值接近于零,使地标位于网格表面;( 3 )拉普拉斯项Llap,在一定程度上保持提取的网格光滑。总的来说,总损失函数被表述为:

用λ表示各项的权重,设置如下:λsil = 0.1,λdef = 1,λoffset = 0.01,λlmk = 0.1,λlap = 100。我们将上述MLPs与中性3D地标P0联合优化,直到所有MLPs收敛。

参数传递。最后,我们使用粗略训练好的引导模型来初始化高斯头部模型。具体来说,我们通过DMTet提取具有顶点X和顶点特征F的中性网格,并直接将它们的值分别分配给中性高斯的中性位置X0 = X和顶点特征向量F0 = F。对于其他中性属性,我们采用Gaussian抛雪球中的初始化策略。然后,我们为下一阶段保留所有四个优化的MLPs,同时随机初始化两个属性MLPs和超分辨率网络Ψ的参数。

5、实验和总结

实验结果表明,所提出的高斯头像方法优于现有的国家的最先进的方法在渲染质量和表达精度。具体而言,该方法实现了2K分辨率的超高保真度合成图像,准确地模拟了极其复杂和夸张的面部表情,并在生成高频细节方面表现出显着的改进。与以前的方法相比,该方法还显示出峰值信噪比(PSNR)和结构相似性指数(SSIM)的轻微改善,以及学习感知图像块相似性(LPIPS)和Fréchet起始距离(FID)的显着改善,表明上级图像质量和表达转移准确性。此外,与现有方法相比,该方法能够合成更高保真的图像,具有更准确的表情转移和更丰富的情感。

本文介绍了一种称为高斯头像的新方法,用于在2K分辨率下创建具有可控表情的高保真3D头像。该方法利用可控的动态3D高斯模型来模拟富有表现力的人类头部化身,并采用完全学习的变形场来准确捕捉复杂和夸张的面部表情。作者还提出了一种基于隐式表示的有效初始化策略,以确保稳定的训练和收敛。实验结果表明,该方法优于现有的国家的最先进的方法在渲染质量和表达的准确性。此外,本文还讨论了所提出的方法的局限性和伦理考虑。

6、应用场景和领域

该技术可以用于所有面部生成的场景和领域,例如:电影、游戏行业

论文:https://yuelangx.github.io/gaussianheadavatar/assets/Gaussian_Head_Avatar.pdf

项目网址:https://yuelangx.github.io/gaussianheadavatar/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343