「爱奇艺AI 弹幕蒙版」
背景
初衷是想用于短视频的背景替换。所谓背景替换,就是把用户录制的短视频里的人像抠出来,换到另一个不同的背景里。但是从技术角度来讲,单张图像分割效果合格不等于视频分割效果合格。分割结果在视频前后几帧图像中稍有不连续,就会造成帧间分割边缘不停地抖动,这样的分割不连贯非常影响用户体验。而保留原始背景,在原始背景和分割出来的人像层中间插入动态背景。这样分割边缘和原始背景仍然在一起,误差就不那么明显。
痛点:
1)弹幕太多、覆盖人脸,影响观看体验
2)短视频的背景替换过程中,分割结果在视频前后几帧图像中稍有不连续,就会造成帧间分割边缘不停地抖动,影响观看体验
目标:
将该技术应用于弹幕,保留原始背景,在原始背景和分割出来的人像层中间插入动态背景,以改善弹幕覆盖人脸的问题,提高用户的观看体验
解决方案:
1)「景别识别模型」对每一帧图像进行一次识别,判断当前帧属于近景还是远景。目的是判断图像是否是特写或近景镜头画面
2)识别后的图像进入到分割模型中生成蒙版,而远景画面则不会生成蒙版。弹幕会像原来一样覆盖整个画面。这样一来,帧间蒙版抖动的问题就得到了很好的解决
3)分割结束之后,系统进一步利用「腐蚀」和「膨胀」等图像形态学处理算法对分割模块输出的前景区域进行精细的剪裁,并根据应用场景的需要删掉画面占比小的前景区域
4)进入蒙版文件的生成、压缩等生产流程
注:场景切换和舞台光是两个通用分割模型很难处理好的问题。爱奇艺团队挑了数万张典型场景的图像,标注团队前后花了三周时间进行标注
效果:
技术分析:
- 人脸与背景分割:
1)语义分割(semantic segmentation):针对该需求,语义分割只要求系统把所有图像里的「人」都分到「类别人」
2)两个类别的语义分割:图像里每一个像素都会被分配到「前景」类别或者「背景」类别,然后系统会基于分割结果生成对应的蒙版文件。
3)算法基于谷歌DeepLabv3 模型
2. 升级改进
1)「实例分割」(instance segmentation):基于MaskRCNN 的实例分割,辅以爱奇艺的长项,尝试做「粉丝专属弹幕蒙版」。例子:如果你喜欢吴亦凡,那么其他明星出来的时候,弹幕还是会把他们挡住,只有吴亦凡出来的时候,弹幕会绕过他。
2)「全景分割」(panoptic segmentation)
3)真正做到分割镜头的「焦内」和「焦外」:因为现在没有进行这一类特定分割任务的模型,所以就用「有人物出现的部分」作为「焦内」的指代
4)非赞助商商标抽取及替换