2019/08/31 15:42

刷屏的ZAO换脸APP你玩了吗？里面的霸王条款你造吗？

你的朋友圈被换脸视频刷屏了吗？昨天，一款换脸手机 APP——Zao 在各大应用商店上线，还不到一天的时间就在微博、朋友圈等各大平台刷屏。和此前大热的各种 deepfakes 视频一样，这款 APP 也可以实现换脸功能。不同的是，这次，换脸的门槛再一次降低，每个人都可以在手机上制作换脸视频了。但是，在上传照片之前，请详细阅读《用户协议》。

为了规避隐私、肖像权等方面的纠纷，该 APP 不支持上传名人照片。因此，机器之心编辑部选取了某粉丝的照片作为换脸素材。

从美剧《生活大爆炸》中截取的动图。

机器之心粉丝换脸后的视频动图。

机器之心粉丝换脸后的吕秀才视频动图。

除了视频之外，该 APP 还有制作 GIF 动图的功能，也就是说，你也可以变身「中年王子晓明哥」了。

用机器之心粉丝照片换脸黄教主经典表情。

机器之心粉丝版「我不要你觉得，我要我觉得」。

由于上传的照片是戴眼镜的，所以换脸后的人物也戴上了眼镜。

除了上面展示的片段之外，这一 APP 还提供了很多其他可以选择的素材，分为合演、换装、名场面、爱豆同台等主题，用户可以自由选择换脸对象。

此前，Deepfakes 视频的火爆引发了对隐私权、肖像权、名誉权等各种法律问题的讨论。因此，这款 APP 对照片源的要求非常严格，鼓励用户使用手机自拍高清照片。而网上下载的名人照片大部分不可以使用。即使是手机上原有的照片也有使用限制，在未进行人脸验证之前只能使用十次。

尝试上传某名人照片之后，APP 跳出以上提示。

但是，让用户上传私人照片的做法不免令人担心，这家公司会如何处置我们上传的照片呢？果然，在《用户协议》里，Zao 明确告知用户：同意上传照片之后，我们怎么用你就管不着了。

《用户协议》里的霸王条款

从《用户协议》里我们可以读出以下信息：

1. 用户上传照片=授权 Zao 使用该照片。而且，其关联公司也享有同样的权利；

2. 该授权是免费、不可撤销、永久、可转授权、可再许可的；

3.Zao 及其关联公司有权对用户上传的内容进行全部或部分的修改；

4.Zao 及其关联公司享有修改后的内容著作权。

……

以上只是我们从《用户协议》中读出的部分内容，其中必然还有很多我们没有读出的隐含内容。但仅从目前能理解的部分来看，这一协议也是相当霸道了，部分网友大呼「离谱」。因此，部分法律人士提醒公众：上传照片有风险，要多注意隐私安全。

换脸到底是什么样的操作

尽管「Deepfake」这类应用非常吸引人，但落到实处还是会引发很多的问题，不论是伦理还是隐私。不过机器之心的读者可能更关心它背后的技术，后面我们将介绍生成对抗网络和变分自编码器两种换脸的解决方案，也许大规模应用还能进一步催生效果更好、算力更少的解决方案。

直观而言，GAN 这类生成模型可以生成非常逼真的人脸图像，那么现在需要将某个人的特点迁移到另一张人脸上，这就需要更多的模块来定义需要迁移的位置与特点。

总体上，「Deepfakes」换脸主要分为以下过程：

人脸定位
人脸转换
图像拼接

其中人脸定位已经非常成熟了，一般定位算法可以生成人脸的特征点，例如左右眉毛、鼻子、嘴和下巴等等。人脸转换也就是采用 GAN 或 VAE 等生成模型，它的目标是生成拥有 A 表情的 B 脸。最后的图像拼接则是将人脸融合原图的背景，从而达到只改变人脸的效果。

当然，如果生成 ZAO 这种小视频，那么还需要一帧帧地处理图像，然后再将处理后的结果重新拼接成小视频。

人脸定位

人脸定位也就是抽取原人脸的表情特征，这些特征点大致描述了人脸的器官分布。我们可以直接通过 dlib 和 OpenCV 等主流的工具包直接抽取，但它们一般采用了经典的 HOG 的脸部标记算法。这种算法根据像素亮度差确定一些「箭头」，从而找到人脸显著的特征点。

如上是一些人脸特征点，如果我们像换脸的表情更加真实和准确，那么也可以使用目前主流的人脸识别算法，它利用卷及网络能生成更完美的特征点。但是这类深度模型需要更大的算力，尤其是在处理高分辨率图像时。

人脸转换

后面就是「Deepfake」应用最核心的部分了：换脸。一般我们可以通过 VAE 或 GAN 两种方式实现，这里主要介绍一下它们的思路。

首先对于变分自编码器（VAE），我们知道它希望通过无监督的方式将人脸图像压缩到短向量，再由短向量恢复到人脸图像。这样短向量就包含了人脸图像的主要信息，例如该向量的元素可能表示人脸肤色、眉毛位置、眼睛大小等等。

所以如果我们用某个编码器学习所有人，那么它就能学习到人脸的共性；如果再用某个解码器学习特定的某个人，那么就能学习到他的特性。简单而言，当我们用通用编码器编码人脸 A，再使用特定解码器 B 解码隐藏向量，那么就能生成出拥有 A 的人脸表情，但却是 B 人脸的图像。

这就是 VAE 的解决方案，对于 GAN 来说，它会利用抽取的人脸特征点，然后根据生成器生成对应的目标人脸图像。这时候，编码器同样也会将真实的目标人脸编码，并和生成的目标人脸混合在一起。因此，如果判别器不能区分根据某人特征点生成的人脸和真实人脸有什么区别，那么生成的人脸就非常真实了。

如上所示为论文 Few-Shot Adversarial Learning of Realistic Neural Talking Head Models 的解决方案，它只需要几张目标人脸图，就能根据原人脸的特征点生成极其逼真的效果。

如何识别和应对「Deepfakes」照片或视频？

知道了如何制作换脸视频，我们还要掌握一些识别换脸视频的技术，因为这些换脸技术给大众带来欢乐的同时，也在被不少人滥用。这种滥用不仅给公众人物造成了困扰，甚至还威胁到了普通大众。

如前段时间火爆网络的 DeepDude 应用软件，这款 APP 仅输入一张女性照片，即可借助神经网络自动「脱掉」女性的衣服，从而展现其裸体。这款侵犯女性隐私的 APP 在上线仅数小时后即宣告下架。

虽然这些换脸 APP 会因人们的抵制或其他原因而强制下架，但类似的 APP 还会出现，网络上也依然会充斥着真假难辨的照片或视频。所以，从技术层面来看，我们需要一些方法来帮助识别这些 Deepfake 照片或视频。

不自然的眨眼

由于用来训练神经网络的图像数据往往是睁着眼睛的，因此 Deepfake 视频中人物的眨眼或不眨眼的方式通常是不自然的。

去年，奥尔巴尼大学（University of Albany）的研究人员发表了一篇论文，提出了一种可以检测这种不自然眨眼的技术。有趣的是，这项技术使用的也是深度学习，和制作假视频的技术是一样的。研究人员发现，利用眨眼视频训练出的神经网络可以在视频中定位眨眼片段，找出非自然眨眼运动的一系列帧。结果发现，Deepfake 视频中人物的眨眼不符合正常的生理学规律，由此可以识别出哪些是原始视频，哪些是 Deepfakes 视频。

原始视频（主持人，图上）和 Deepfake 视频（尼古拉斯凯奇，图下）中人物眨眼的检测示例。结果显示，原始视频中 6 秒内可以检测到人物的眨眼，而 Deepfake 视频中 6 秒内未检测到人物眨眼，这不符合生理学规律。

论文地址：https://arxiv.org/pdf/1806.02877.pdf

追踪头部运动

每个人都有独特的头部运动（如开始陈述事实时点头）和面部表情（如表达观点时得意得笑），但 Deepfakes 中人物的头部动作和面部表情都是原人物而非目标人物的。

基于此，加州大学伯克利分校的研究者提出了一种检测换脸的 AI 算法。其基本原理是：利用一个人的头部动作和面部表情视频训练一个神经网络，然后拿这个神经网络去检测另一个视频中的人物动作和表情是否属于这个人。模型准确率达到 92%。

（a）原始人物；（b，c）分别是 Deepfake 人物。

论文地址：http://openaccess.thecvf.com/content_CVPRW_2019/papers/Media%20Forensics/Agarwal_Protecting_World_Leaders_Against_Deep_Fakes_CVPRW_2019_paper.pdf

制作换脸视频和识别换脸就像一场猫鼠游戏，造假技术日新月异，打假技术也在不断迭代。但仅在技术层面打击这一技术的滥用是不够的，我们还需要法律的支持。

政府会允许此类 Deepfake 应用逍遥法外吗？

Deepfakes 等技术的滥用也引起了各国政府的注意。

今年 6 月，美国民主党众议员 Adam Schiff 在众议院情报委员会听证会上发出警告称，由 Deepfake 生成的视频可能会对 2020 年美国大选产生灾难性影响。因此，他要求国会考虑修改法律，以规定对合理审核做法的豁免权。而与此同时，也有议员提出法案，建议所有 AI 生成的视频都必须打上标记。

今年 7 月，弗吉尼亚州扩大了其「色情报复法」（revenge porn law）范畴，将 deepfake 也包含在内，修正后的法律已于当地时间 7 月 1 日生效。依照新规定，未经当事人允许即分享他人的裸露照片或视频（无论该照片或视频是真实的还是伪造的）属于违法行为，用于「胁迫、骚扰或恐吓」目的将被定为第一类轻罪（Class 1 misdemeanor），最高可判 12 个月的监禁，罚款额高达 2500 美元。

那么国内是否有相关的规定呢？

中华人民共和国《民法通则》第一百条规定，「公民享有肖像权，未经本人同意，不得以营利为目的使用公民的肖像。」

最高人民法院关于贯彻执行《民法通则》若干问题的意见第 139 条规定：以营利为目的，未经公民同意利用其肖像作广告、商标、装饰橱窗等，应当认定为侵犯公民肖像权的行为。

今年 4 月，第十三届全国人大常委会第十次会议审议通过的《民法典人格权编（草案）》中新增加了一条规定，即任何组织或者个人不得以利用*信息技术手段伪造*的方式侵害他人的肖像权。虽然没有明确说明，但这类信息技术手段理应包含 Deepfake 这类换脸应用。

部分人士分析道，Zao 现在也游走在危险地带。虽说它可以自动识别公众人物，但其识别率肯定达不到百分之百。因此，一旦出现相关问题，产生了某些不良影响，被封停或下架也不是没有可能。

工程DeepFakesGANAI换脸

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

图像压缩技术

图像压缩是数据压缩技术在数字图像上的应用，目的是减少图像数据中的冗余信息，从而用更加高效的格式存储和传输数据。图像压缩可以是有损数据压缩也可以是无损数据压缩。

来源：维基百科

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出，它包括两部分：编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征，低级表征叫作本征向量（latent vector）。解码器吸收数据的低级表征，然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本，其结构跟自动编码器是类似的，也由编码器和解码器构成。在自动编码器中，需要输入一张图片，然后将一张图片编码之后得到一个隐含向量，这比原始方法的随机取一个随机噪声更好，因为这包含着原图片的信息，然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片，因为没有办法自己去构造隐藏向量，所以它需要通过一张图片输入编码才知道得到的隐含向量是什么，这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制，迫使其生成的隐含向量能够粗略的遵循一个标准正态分布，这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易，只需要给它一个标准正态分布的随机隐含向量，这样通过解码器就能够生成想要的图片，而不需要给它一张原始图片先编码。

来源：机器之心 Tutorial on Variational Autoencoders

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

OpenCV技术

OpenCV的全称是Open Source Computer Vision Library，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。

来源：维基百科

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/