简评:以后这项技术普及了,估计能在演艺圈挂起阵阵腥风血雨。
华盛顿大学的计算机科学家之前就透露过,他们对互联网收集的图像进行分析(像布什和奥巴马这样的公众人物)从而生成虚拟 3D 人像模型。如果互联网上每个人都有无数张数字照片时,那么可以通过这种方式构建任何人的虚拟 3D 人像模型。
华盛顿大学的计算机科学家之前透露,他们可以从互联网上收集公众人物的图像来伪造出他们的数字影像。
研究人员选择奥巴马进行研究,因为他有很多高清视频可以在网上找到,研究团队通过神经网络分析了数百万帧视频,来确定奥巴马脸部元素的移动,比如的嘴唇牙齿和脸上的皱纹的运动关系。
Teaser -- Synthesizing Obama- Learning Lip Sync from Audio—在线观看视频
在人工神经网络中,称为人造神经元的组件被馈送数据,并且一起工作来处理面部识别和语言识别问题。然后,在人造神经网络中,各组件像神经元一样层层传递数据,协同工作,以解决面部和语音识别的问题。神经网络可以改变这些神经元之间的连接模式,改变交互方式,神经网络再次尝试解决问题。随着时间的推移,神经网络学习了哪种方式是最佳解决方案,这就是 AI 自学习的策略。
在新研究中,神经网络学习了口腔形状和声音之间的关联。研究人员录制了音频剪辑,用它来作为原声。然后生成一个视频来匹配这段音频,最终合成一段伪造的视频。 研究人员指出,以前的研究是拍摄人们一遍一遍地说句子,以嘴形状与各种声音相关联视频数据,这种方式不但昂贵而且效率低下。相比之下,这项新工作可以从互联网或其他地方获取已经存在的视频进行研究,大大提升了效率和数据量。
华盛顿大学的研究合着者 Ira Kemelmacher-Shlizerman 表示,这项新技术的一个潜在应用场景是改善视频会议。电话视频会议通常会有卡顿或分辨率低的问题,但音频传输一般不会有这种问题。因此在将来,视频会议可能仅仅只需要传输语言数据,接收方通过这段语言数据就能够重建出这段影像。 Kemelmacher-Shlizerman 表示,这项工作还可以帮助人们在虚拟现实或增强现实应用中与虚拟人像进行交谈。
研究人员表示,他们的视频还不算完美。例如,当奥巴马在视频中将自己的脸从相机上歪斜时,这让可能导致他的嘴巴被叠加在脸部的其他位置或者到背景上。
此外,研究小组指出,他们的工作并没有对情感进行建模,所以奥巴马在输出的视频中面部表情可能会显得过于严肃。然而,他们认为,如果他们的神经网络能够从音频中学会预测情绪状态,从而产生相应的视觉效果,那将是很有趣的。
为了防止有人使用这种技术生成恶意的视频,这项新的研究也提出了检测假视频的方法。例如,程序对视频操作会模糊嘴巴和牙齿。 人眼可能不会察觉到,但是可以被程序轻易检测到。
研究人员推测,口形和话语之间的联系可能在某种程度上是人类普遍存在的。这个实验适用于奥巴马,适用于其他公众人物,同样也适用于我们大众。
这项研究由三星,谷歌,Facebook 英特尔和华盛顿大学资助。研究团队将于 8 月 2 日在洛杉矶的 SIGGRAPH 会议上详细介绍他们的发现[PDF]。
原文:AI Creates Fake Obama
推荐阅读:
说出来你可能不信,视频里的我是假的