2019/01/31 14:41

路雪淑婷编译

AI换脸无法识别？这里有个方法

人脸编辑技术的发展和广泛使用引起人们对隐私安全等的担忧，如 DeepFakes 可以实现视频换脸，且逼真程度很高，有时人类都无法分辨真伪。为此，本研究提出了一种检测人脸伪造图像的新方法以及包含来自 1000 个真实视频的 510,207 张图像和目标真值的数据集。本研究使用该数据集，采用额外的人脸区域特定领域知识，改善了人脸图像伪造检测的准确率。

现在，操纵视觉内容已经很普遍，也是数字社会中最重要的话题之一。比如，DeepFakes 展示了如何使用计算机图形学和视觉技术进行视频换脸，进而破坏别人的声誉。人脸是目前视觉内容操纵方法的主要兴趣点，这有很多原因。首先，人脸重建和追踪是计算机视觉中比较成熟的领域，而它正是这些编辑方法的基础。其次，人脸在人类沟通中起核心作用，因为人脸可以强调某个信息，甚至可以传达某个信息。目前的人脸操纵（facial manipulation）方法分为两类：面部表情操纵和面部身份操纵（见图 2）。最著名的面部表情操纵技术之一 Face2Face 来自于 Thies 等人 [48]。它可基于商用硬件，将一个人的面部表情实时迁移至另一个人。后续的研究（如《Synthesizing Obama: learning lip sync from audio》[45]）能够基于音频输入序列使人脸动起来。《Bringing portraits to life》[8] 可以编辑图像中的面部表情。

图 2：人脸数字化的发展是现代人脸图像编辑工具的基础。这些编辑工具分为两类：身份修改和表情修改。除了使用 Photoshop 等工具手动编辑人脸以外，近年来出现了很多自动化方法。最著名、最广泛的身份编辑技术是换脸（face swapping）。这些技术流行的根源在于其轻量级特性，方便在手机上运行。facial reenactment 技术可以将源人脸的表情迁移到目标人脸，从而改变一个人的表情。

身份操纵是人脸伪造的第二大类。与改变表情不同，身份操纵方法将一个人的脸换到另一个人的面部。因此，这个类别又叫换脸。随着 Snapchat 等消费者级别应用的广泛使用，这类技术变得流行。DeepFakes 也可以换脸，但它使用了深度学习技术。尽管基于简单计算机图形学技术的换脸可以实时运行，但 DeepFakes 需要为每一个视频对进行训练，这非常耗时。

本研究展示了一种方法，可以自动、可靠地检测出此类人脸操纵，且性能大幅超过人类观察者。研究者利用深度学习的近期进展，即使用卷积神经网络（CNN）学习极强图像特征的能力。研究者以监督学习的方式训练了一个神经网络，可以解决人脸伪造检测的问题。为了以监督的方式学习并评估人类观察者的表现，研究者基于 Face2Face、FaceSwap 和 DeepFakes 生成了一个大规模人脸操纵数据集。

本文贡献如下：

使用特定领域知识的当前最先进人脸伪造检测技术。
新型人脸伪造图像数据集，包含来自 1000 个真实视频的 510,207 张图像和目标真值，以保证监督学习。
进行了用户调查，以评估所用人脸操纵方法的有效性，以及人类观察者在不同视频质量情况下检测伪造图像的能力。

论文：FaceForensics++: Learning to Detect Manipulated Facial Images

论文链接：https://arxiv.org/pdf/1901.08971.pdf

摘要：合成图像生成和操纵的快速发展引起人们对其社会影响的巨大担忧。这会导致人们丧失对数字内容的信任，也可能会加剧虚假信息的传播和假新闻的捏造，从而带来更大的伤害。在本文中，我们检查了当前最先进人脸图像操纵技术结果的逼真程度，以及检测它们的困难性——不管是自动检测还是人工检测。具体来说，我们聚焦于 DeepFakes、Face2Face、FaceSwap 这几种最具代表性的人脸操纵方法。我们为每种方法各创建了超过50万张操纵过的图像。由此产生的公开数据集至少比其它同类数据集大了一个数量级，它使我们能够以监督的方式训练数据驱动的伪造图像检测器。我们证明了使用额外的特定领域知识可以改善伪造检测方法，使其准确性达到前所未有的高度，即使在强压缩的情况下同样如此。通过一系列深入实验，我们量化了经典方法、新型深度学习方法和人类观察者之间的性能差异。

3 数据集

本文的核心贡献之一是 FaceForensics 数据集。这个新的大规模数据集使我们能够以监督的方式训练当前最佳的人脸图像伪造检测器。为此，我们将三种当前最先进的自动人脸操纵方法应用到 1000 个原始真实视频上（这些视频均是从网上下载的）。

表 1：FaceForensics 数据集中每一种方法相关图像的数量，包括训练、验证和测试数据集中的图像数量。

图 4：FaceForensics 数据集统计数据。VGA 表示视频分辨率为 480p，HD 表示 720p，FHD 表示 1080p。c 中 x 轴表示给定像素高度，y 轴表示序列数。

4 伪造检测

我们将伪造检测视为被操纵视频每一帧的二分类问题。下面是人工和自动伪造检测的结果。对于所有的实验，我们将数据集分成固定的训练、验证和测试集，分别包含 720、140 和 140 个视频。所有评估结果都是基于测试集中的视频报告的。

图 6：143 个参与用户的伪造检测结果。准确率取决于视频质量，视频质量差则准确率会下降。原始视频上的检测准确率为 72%，高质量视频上的准确率为 71%，低质量视频上的准确率只有 61%。

4.2 自动伪造检测方法

图 5：本文提出的特定领域伪造检测流程：先用一种稳健的人脸追踪方法处理输入图像，然后利用特定领域信息提取图像中被脸部覆盖的区域，将该区域输送至一个训练好的分类网络，最后该网络的输出即是图像真伪的最终结果。

图 7：使用人脸图像伪造的特定领域信息（即人脸追踪），所有使用架构在不同操纵方法上的二分类检测准确率。这些架构在不同的操纵方法上独立训练。

图 8：使用人脸图像伪造的特定领域信息（即人脸追踪），本文提出检测器的所有变体在不同操纵方法上的二分类检测准确率。除了最右侧分类器使用完整图像作为输入，这些架构都使用人脸追踪器的追踪信息在完整数据集上训练。

图 9：使用人脸图像伪造的特定领域信息（即人脸追踪），本文提出检测器的所有变体在不同操纵方法上的平均二分类检测准确率。除了最右侧分类器使用完整图像作为输入，这些方法都使用人脸追踪器的追踪信息在完整数据集上训练。

图 10：本文提出的方法使用 XceptionNet 的检测性能依赖于训练语料库的大小。尤其是，低质量视频数据需要较大型的数据集。

理论AIDeepFakes计算机视觉监督学习

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

计算机图形技术

图像数据处理、计算机图像（英语：Computer Graphics）是指用计算机所创造的图形。更具体的说，就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分，在机器学习领域，分类问题通常被认为属于监督式学习(supervised learning)，也就是说，分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

来源：Wikipedia