亮点:主要是提出了一系列的优化方案来加速2D图片到3D模型的转换。提出了一个数据增强手段,来帮助模型在视频序列中也很稳定的生成3Dmesh。
gimbal lock:如果使用欧拉角度(x,y,z轴的偏转角)的话会造成角度混淆的问题。例如按照x转90度,再按照y转90度得到的最终状态和先按z转90度再按x转90度的最总状态是一致的,这就会导致回归模型难以收敛。一个优秀的替代方案是使用similarity transformation matrix(3*4),包含了旋转,平移,缩放的问题。
NME(Normalized Mean Error)
VDC(Vertex Distance Cost):直接计算ground truth的点和生成点的L2距离
WPDC(Weighted Parameter Distance Cost):计算参数的差距而不是顶点的差距,并给每个参数按照重要程度(自动计算)设定了不同的weight
fWPDC:加速WPDC中计算重要度的部分,从原来的每个维度计算一次换成了一共只计算一次。
meta-joint optimization:因为手动设计loss weight得到的结果一般,所以设计了一套元学习的方式,用来动态的调整VDC和fWPDC之间的关系。也就是分别用VDC和fWPDC优化模型,训练k步后选loss低的那个状态更新模型。然后重复以上步骤。
Landmark-regression Regularization:作者发现直接让模型预测2d landmark比从生成的3D模型中找对应的2d landmark做约束的效果要好
3D Aided Short-video-synthesis:为了让生成的3D脸在视频中也鲁棒(防止抖动),尝试根据输入的图片生成一些短视频,作者将视频分为以下几类:1.噪声,即随机抖动,2.高斯模糊,可以通过对输入图像做卷积完成。3.平面旋转和移动,4.空间旋转和移动,使用face profiling技术。然后应该是将生成的图片再用于训练。
face profiling:这个是在3DDFA中提出的技术,就是说当图片的3D信息和深度信息都有了的时候就可以直接旋转角度来获得新角度的样本了。