姓名:李妙歌 学号:20021210904
转载自https://mp.weixin.qq.com/s/C49zy0xwZ0yc1Ggt70gH_g
【嵌牛导读】:前段时间,Adobe Max 大会刚刚结束,Photoshop 2021版便登上了国外各大媒体版面。其原因是,新版Ps工具中内置了AI驱动工具,诸如“天空置换”等高难度修图问题,现在点点鼠标就可以轻松实现,而且效果远超手动操作。
【嵌牛鼻子】:视频修复 天空遮罩框架 运动估计 图像融合
【嵌牛提问】:AI修图究竟有多强大?
【嵌牛正文】:
当我们进行拍摄时,无论是拍人还是拍景,“天空”可以说是拍摄中的关键元素,今天要介绍的就是一款基于原生视频的AI处理方法,它不仅可以一键切置换天空背景,还可以打造任意“天空之城”。
1. AI视频修复新玩法
这项AI处理方法来自密歇根大学的一位华人博士后的最新研究。该方法基于视觉技术可一键调整视频中的天空背景和天气转换。
比如,《星际迷航》等科幻电影中经常出现的浩瀚星空、宇宙飞船,也可以利用这项技术融入随手拍的视频中。
视频中的蓝色的天空背景也随飞船变成了灰蒙蒙的色调。
当然它的玩法还不止如此,也可以在天空中创建自己的移动城堡。
另外,它还具备天气转换的功能,比如晴空万里、阴雨绵绵、雷雨交加等各种天气都可以在视频中随意切换。
研究人员表示,现在已经在考虑将其制作成插件/脚本的形式,方便相关从业者或行业使用。在此之前,这项技术的AI代码已经在Github开源,感兴趣的朋友可以优先安装进行体验了。
Github地址:https://github.com/jiupinjia/SkyAR
2. 技术原理
不同于传统研究,研究人员提出了一种完全基于视觉的解决方案。它的好处就是可以处理非静态图像,同时不受拍摄设备的限制,也不需要用户交互,可以处理在线或离线视频。
上述实验视频,均是通过手持智能手机和行车记录仪在野外拍摄的。经过该方法处理后,其在视频质量、运动动态、照明转换方面都达到了较高的保真度。比如在浮动城堡,超级月亮样例中,使用单个NVIDIA Titan XP GPU卡,该方法可以在输出分辨率为640 x 320时达到24 fps的实时处理速度,在854 x 480时达到接近15 fps的实时处理速度。
具体来说,该方法分为三个核心模块:
天空遮罩框架(Sky Matting Network):用于检测视频帧中天空区域的视频框架。该框架是采用了基于深度学习的预测管道,能够产生更精确的检测结果和更具视觉效果的天空蒙版。
运动估计(Motion Estimation):用于恢复天空运动的运动估计器。天空视频需要在真实摄像机的运动下进行渲染和同步。
图像融合(Image Blending):用于将用户指定的天空模板混合到视频帧中的Skybox。除此之外,还用于重置和着色,使混合结果在其颜色和动态范围内更具视觉逼真感。
其完整框架如下图:
天空遮罩框架模块利用了深卷积神经网络(CNN)的优势,在一个像素级回归框架下对天空冰雹进行预测,该框架可以产生粗尺度和细尺度的天空蒙版。天空遮罩框架由一个分段编码器( Segmentation Encoder )、一个掩模预测解码器(Mask Prediction Decoder)和一个软细化模块(Soft Refinement Module)组成。其中,编码器的目的是学习下采样输入图像的中间特征表示。解码器被用来训练和预测粗糙的天空。优化模块同时接收粗糙的天空蒙版和高分辨率输入,并生成一个高精度的天空蒙版。而在运动估计模块研究人员直接估计了目标在无穷远处的运动,并创建了一个用于图像混合的天空盒(Skybox),通过将360°天空盒模板图像混合到透视窗口来渲染虚拟天空背景。假设天空模式的运动是由一个矩阵M2R33来模拟的。由于天空中的物体(如云、太阳或月亮)应该位于同一个位置,假设它们的透视变换参数是固定值,并且已经包含在天空盒背景图像中,然后使用迭代Lucas-Kanade和金字塔方法计算光学流,从而可以逐帧跟踪一组稀疏特征点。对于每对相邻帧,给定两组2D特征点,使用基于RANSAC的鲁棒模糊估计来计算具有四个自由度(仅限于平移、旋转和均匀缩放)的最佳2D变换。最后,在图像融合模块中预测天空蒙版时,输出像素值越高,表示像素属于天空背景的概率越高。在常规方法中,通常利用图像遮罩方程,将新合成的视频帧与背景进行线性组合,以作为它们的像素级组合权重。但由于前景色和背景色可能具有不同的色调和强度,因此直接进行上述方法可能会导致不切实际的结果。因此,研究人员应用重新着色和重新照明技术将颜色和强度从背景转移到前景。
3. 实验结果
研究人员采用了天空电视台上的一个数据集。该数据集基于AED20K数据集构建而成,包括多个子集,其中每个子集对应于使用不同方法创建真实的填空遮罩。
本次试验使用“ADE20K+DE+GF”子集进行了培训和评估,该训练集中有9187张图像,验证集中有885张图像。以下为基于该方法的视频天空增强效果:
最左边是输入视频的起始帧,右边的图像序列是不同时间段下的输出效果。
天气转换的效果,分别为晴到多云,晴到小雨,多云到晴天以及多云到多雨。
需要强调的是,在合成雨天图像时,研究人员通过屏幕混合在结果的顶部添加动态雨层(视频源)和雾层。结果显示,只需对skybox模板和重新照明因子稍作修改,就可以实现视觉逼真的天气转换。与CycleGAN的比较结果。CycleGAN是一种基于条件生成对抗网络的非成对图像到图像转换方法。在定性方面,该方法表现出更高的保真度。
第一行为两个原始的输入帧;第三行为CycleGAN结果。在定性比较上,PI和NIQE的得分值越低越好。
可以看出,该方法在定量指标和视觉质量方面都优于CycleGAN。
更多论文详细内容,可参见:
https://arxiv.org/abs/2010.11800