先来看一张特别的 “连连看”。
上图这 5 帧幽灵公主的上色画面中,你能找出哪张图是 AI 画的,哪张是人类画师画的吗?
被难倒了吧?实际上,上边的一段动画上色图中,只有第一帧画面是人类画师画的,后面的画面都是 AI 根据第一帧生成的。
这是来自爱奇艺 AI 创作团队研究人员的最新成果——是基于镜头中的参考帧来进行上色的一种方法,简单来说,这个新模型仅根据一帧的颜色图参考,就能对片段中的其他线稿进行自动着色,完成一张最快只需要 0.7 秒!
现今,二次元文化已经从一个小众文化变成了流行的大众文化,看动画已经成为当代年轻人娱乐生活中的重要部分。但如今的动画制作的时间成本仍然比较费时,特别是上色部分,画师需要重复地对动画中人物动作的每一帧逐一进行上色,需要耗费大量的人力和时间。因此,爱奇艺提出一种新的动画上色模型来用于动画自动着色,针对对动画参考帧进行上色,以提高二维动画制作的效率。
名为《Line Art Correlation Matching Feature Transfer Network for Automatic Animation Colorization》相关研究论文已经被最新 WACV 2021[1] 峰会收录。WACV 全称 IEEE Winter Conference on Applications of Computer Vision,是全球计算机视觉领域的知名盛会。
论文链接👇
虽然我们都很崇拜宫崎骏或者新海城之类的动画大师,也为他们的动画作品的画面和情节的精彩感到惊艳,但二维动画制作背后充满了艰辛:传统动画上色流程长、人力耗费多。
二维动画制作的上色流程大概可以分为:
高级画师设计关键帧线稿;
中级画师补充中间动作帧线稿;
上色人员对片段中每一帧进行上色。
尤其是第三步属于重复的非创作性的工作,如果能用 AI 替代可以节省大量劳力和制作时间。
爱奇艺的研究人员发现,动画帧之间存在着很强的相关性,比如追逐的幽灵公主相邻帧间的结构都有相似性,只是身体位置和动作发生了变化,如果能获得帧间的相关性,我们就可以用一帧上好色的图片将颜色变换到其他待上色帧。另一种理解方式是对齐,我们需要将参考图的颜色对齐到未上色的线稿上。
图三. 网络结构概览
如图四,实际的网络结构比图三更复杂,作者将 CMFT 模块以 coarse-to-fine 的方式嵌入到生成网络中,逐步对匹配的特征进行细化和修正,最终得到上色结果。通过 CMFT 转换的小尺度颜色特征在经过上采样之后可以丰富下一个尺度的 CMFT 的输入特征,使用丰富后的特征来进行相关性计算,这样使得高层特征的计算可直接参考到底层特征的匹配结果,在逐步提高匹配细粒度的同时保证整体匹配的稳定性。另外,作者还引入了线稿语义网络来丰富第一层的线稿特征匹配。
图四. 网络结构
数据获取
为了使得模型适应更多大运动的情况,文章选取相同镜头中间隔较远的两帧组成训练对进行训练,其中一帧作为参考帧,另外一帧作为待预测帧。另外,为了增加数据多样性,文章采用步长为 5 的滑窗在镜头中依次选取训练对。
文章只使用了 3 部动画电影进行数据生产,最终通过以上方法获得 60k 对的数据帧用于最终训练。
效果对比
文章对 LCMFTN 模型在 7 部真实动画电影数据上进行测试,分别在小运动和大运动情况下对连续片段上色进行了对比,在 PSNR 和 SSIM 指标上效果均明显优于目前的主流 state-of-the-art 方法(包括 TCVC[4],DeepAnalogy[2],Pix2Pix[5] 等)
总结展望
文章提出基于镜头中的参考帧来进行上色的方法,其实更智能的方式是根据角色进行上色,算法自动识别线稿角色的语义,然后进行相应的上色,连参考帧的创作都可以省去。另外,除了动画,漫画的制作也存在大量重复的上色工作,类似的技术可以应用到漫画上色上进行探索。
如果要把这些技术应用起来,还有很多问题需要研究人员解决,比如数据的生产和适应性,目前文章使用的数据都是来自于宫崎骏的动画,能否适应到其他模型,需要更多实验;另外,直接从动画中提取帧进行训练,会存在大量的背景干扰,数据上需要想更多办法进行清理和丰富。学术界的文章应用到工业界都会有大量困难需要解决,特别是对于动漫上色任务,这需要改变画师们的创作习惯,需要平衡创作习惯和技术可能性来实现一个好的上色模型,算法研究者需要和动漫创作者进行紧密的交流协作。
爱奇艺的智能上色引擎,已经实际落地到动态漫产业中的 AI,相较于纯人工上色,改变传统工作方式,把创意交给人类,把重复交给 AI。智能上色引擎预计可在动态漫制作上色环节中,节省约 30% 的人力。
最后,对于专业上色画师而言,这样的 AI 或许也能够提供参考,激发新的灵感,甚至衍生出更多更有意思的玩法。未来,期待越来越多的技术能应用到智能创作中,毕竟每个人都有艺术创作的欲望,只是可能没有创作技法,如果哪一天普通人也能通过 AI 快速进行艺术内容创作,相信大家都会愿意尝试。
参考文献:
[2] Liao, Jing, et al. "Visual attribute transfer through deep image analogy." arXiv preprint arXiv:1705.01088 (2017).
[3] Aaron Hertzmann, Charles E Jacobs, Nuria Oliver, Brian Curless, and David H Salesin. Image analogies. In Proceedings of the 28th annual conference on Computer graphics and interactive techniques, pages 327–340, 2001.
[4] Harrish Thasarathan, Kamyar Nazeri, and Mehran Ebrahimi. Automatic temporally coherent video colorization. In 2019 16th Conference on Computer and Robot Vision (CRV), pages 189–194. IEEE, 2019
[5] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1125–1134, 2017.