姓名:张钰 学号:21011210154 学院:通信工程学院
【嵌牛导读】简述深度学习换脸检测技术,对论文DeepFakes and Beyond: A Survey of Face Manipulation and Fake Detection中关于人脸操作检测部分内容的总结
【嵌牛鼻子】Deepfake Detection
【嵌牛提问】Deepfake检测技术分类
【嵌牛正文】
DeepFakes and Beyond: A Survey of Face Manipulation and Fake Detection论文链接:https://arxiv.org/pdf/2001.00179.pdf
背景
随着深度伪造技术的发展,互联网上充斥着大量包含伪造人脸和语音的虚假视频,Deepfake 类技术的滥用带来巨大的负面影响,这也吸引了一批研究者对深度伪造检测技术的重视。新的伪造生成算法和数据量的规模不断增加,传统的基于手工特征的方法检测效率不高,使得研究者开始关注用基于数据驱动的方式来实现检测。基于数据驱动的学习方法主要分为两大类:一类是图片级,将视频处理成帧,设计不同的网络结构,对帧进行判别,实现帧级的识别,最终对视频的帧进行综合决策;另一类视频级,利用循环神经网络学习帧序列的时序特征对一个视频进行整体判断。
帧是组成视频的基本单位,视频通过逐帧播放向观众传递信息。深度伪造往往通过逐帧的方式对面部的特定区域进行篡改,其在各帧内部会出现视觉伪影和视觉噪声,为检测深度伪造视频提供了依据。深度伪造视频由于通常选择在人的面部中心区域交换人脸,而不是对整个面部进行篡改,因此会出现视频中人脸中心的伪造区域与人脸边缘真实区域无法很好拟合的视觉差异,这些差异能够通过机器学习算法、深度学习模型或者其他分类算法进行区分。
深度伪造视频在生成的过程中是逐帧进行的,因此对每一帧进行深度伪造操作时难以兼顾之前已经伪造过的帧序列,从而导致深度伪造视频的连续帧会在时空分布上显示出差异,即伪造视频中的人物随着视频的逐帧播放会显示出眨眼频率明显较低、面部动作变化不协调、人脸亮度逐帧发生变化的情况,因此深度伪造视频能够被循环神经网络RNN或其他与序列数据有关的算法捕捉到。
检测方法分类
Deepfakes检测方法根据文章可分为假图像检测和假视频检测,这是因为大多数的图像检测算法不能直接用于视频检测,因为视频压缩带来的强烈degradation。而且,视频具有随着不同帧变化的时间特性,因此很难被静态的图片检测到。
对伪造视频的检测可以分为:
- 基于帧间时间特性的方法(temporal features across frames) ,通常使用递归分类方法。
- 基于帧内人为视觉效果的方法(visual artifacts within frame ),通常提取特定特征后用深层或浅层的分类器完成检测
论文Celeb-DF (v2): A New Dataset for DeepFake Forensics的各方法在各数据集上表现比较: