Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

林亦霖校对文婧 编辑

如何逃出「AI楚门的世界」(附资源)

曾几何时,你是否会对这个世界产生怀疑:我到底生活在一个怎样的世界?它到底是真实的,还是一个受人控制虚假的世界?有人可能会奇怪,为什么会有这种想法,但是如果你看过《楚门的世界》,你大概就会理解了。

《楚门的世界》是派拉蒙影业公司于1998年出品的一部电影,讲述了一档热门连续剧主人公楚门的故事。他从一出生就被直播,安排生活在一个巨大的摄影棚小岛上。他身边的所有事情都是虚假的,他的亲人和朋友全都是演员,但他本人对此一无所知。但最终楚门从蛛丝马迹中觉察到了这一切,不惜一切代价走出了这个虚拟的世界。有人说,这只是电影,但是很多人不知道的是,《楚门的世界》里面的某些情节正逐渐发生在我们身边,而这一切的主导,就是日渐流行的人工智能AI……

你看到的视频不是真视频

不久前,B站UP主“换脸哥”用AI技术将杨幂的脸“贴”在了朱茵饰演的黄蓉脸上,登上了微博话题榜。这个事件还没有过去多久,又有一个UP主将知名演员徐锦江老师的脸换成“海王”再度引发全面讨论,甚至徐锦江老师本人也转发视频作出了回应:“我的脸?!”现在,B站上UP主上传关于AI换脸视频俨然成为了一种风潮,大有愈加泛滥之势。

AI换脸技术在国外名为Deepfakes,其实是一种逼真交换面孔的新视频技术。通过电脑程序找到两个面部之间的共同点,搭建神经网络来学习人脸,可以使替换后的脸生动模仿原来的表情,达到以假乱真的效果。早在2017年底,一位ID为Deepfakes的用户将《神奇女侠》主演盖尔·加朵的脸“贴”在色情片主演脸上,上传到网络,引发热议。

Deepfakes的技术原理其实并不难,需要掌握以下几步:

  1. 获取deepfakes工具包git clone

    https://github.com/deepfakes/faceswap.git

  2. 补齐依赖包:pip install tqdmpip install cv2等

  3. 收集照片样本以及面部抓取

  4. 运用脸部特征提取算法HOG(Histogram of Oriented Gradient)提取面部特征,开始进行训练

  5. 转换人脸。通常运用到AutoEncoder(一种卷积神经网络),它会根据输入图片,重构这个图片(也就是根据这个图片再生成这个图片)

只需要熟练的掌握了这几步,理论上通过AI你就可以制造出任何你想看到的人物主演的电影,包括你的邻居和你的同学。虽然某些组织已经对该技术发出了警告和并作出了限制,但是“换脸术”显然会继续存在,而且只会越来越精湛。

你看到的照片不是真照片

今年二月份,一个名为“此人不存在”(ThisPersonDoesNotExist.com)的网站被国内媒体集中报道。过去网络上流行一句话,叫“无图无真相”,但这个网站的出现让“有图有真相”也变成了过去式。这个网站的开发者Philip Wang利用AI算法,通过采用真人照片来训练,生成人工合成的类似照片,生成的全新照片足以达到以假乱真的水准。

这些人现实都不存在,全部生成自 ThisPersonDoesNotExist.com 网站

支持该网站的基本AI框架是著名的生成对抗网络GAN,最初由谷歌大脑科学家Ian Goodfellow等人在 2014 年发明。英伟达据此在2018发布了StyleGAN 开源算法,该算法采用生成对抗网络(GAN)方法,利用两个神经网络互相训练,一个试图生成与真实照片无法区分的合成图像,另一个试图分辨出差异,这样训练几个星期后,图像创建网络可以生成从来不曾在世界上出现过但却无比真实的人脸。

StyleGAN官方开源地址:

https://github.com/NVlabs/stylegan

通过下载一个包含Github库基础的预训练StyleGAN生成器 pretrained_example.py,甚至普通人都可以使用相关Python代码直接用来生成图像。

生成1024*1024分辨率的图像,如果使用英伟达Tesla V100 GPU做训练,硬件配置和训练时间如下:

虽然这个生成器由AI生成的照片目前有一些还不太完美,但是另外一些被生成出来的细节丰富、表情逼真的人脸,已经足够骗过大多数人的眼睛,这不由地让人产生后怕的感觉——你以为足够真实的照片,它却是AI创造的。

你看到的新闻不是真新闻

虽然假新闻大家已经见怪不怪了,但是很多假新闻是出于各种利益和选择,人为制造的,然而AI制造的假新闻你看过吗?据彭博社报道,埃隆·马斯克创办的OpenAI近期发布了自然语言处理(NLP)模型——GPT-2,仅需寥寥数个单词,算法就能据此生成出一条几乎可以以假乱真的新闻来。

报道称,最初算法设计仅是作为一种通用语言的人工智能程序,可以回答问题,概括故事梗概翻译文本等,但是研究人员很快意识到它的能力能够输出虚假信息。目前,OpenAI并没有公布GPT-2模型及代码,只是象征性的公布了一个仅含117M参数的样本模型及代码,相当于他们宣称使用的数据量的0.29%。

样本模型及代码查看:

https://github.com/openai/gpt-2

软件编写新闻的过程很简单,研究人员只需给软件提供一些简单的初始信息,例如:“一节装载受控核材料的火车车厢今天在Cincinnati被盗,下落不明。”以此作为基础,软件可以编写出由7个段落组成的新闻,软件还会模仿正式新闻那样引述政府官员的话语,只是这些信息全是假的。

实际到目前,人工生成虚假新闻对人们的日常生活的影响已经足够严重,而如果此类内容能被AI自动生成,那么结果将更加无法想象。另外需要强调的是,这种算法还能够针对特定人群的统计特征甚至个人偏好进行具体优化。OpenAI政策主管Jack Clark表示,“在不久的将来,人工智能也许会以可靠的方式及效率大规模发布虚假故事、伪造推文或者其它极具说服力的误导性评论。”

看完这些,你有没有一种熟悉的感觉?是的,正如《楚门的世界》剧情那样,我们正在被AI技术逐渐包裹在一个虚假的世界里,加上如今日渐成熟的AI推荐算法,未来人工智能甚至可以针对每一个人的喜好,制作出以假乱真的资讯:在一起突发新闻的直播里,你看到的视频、人物图片以及文字很有可能都是假的。那我们有没有办法逃出“AI楚门的世界”呢?答案是肯定的,那就是利用AI对抗AI

利用CNN网络作为分类器监测视频真假

我们怎么样监测视频是否由AI生成的呢?博士生李跃尊(音译)和纽约州立大学奥尔巴尼分校的助理教授刘思伟(音译)提出了一种新技术方法,可以识别深度学习算法生成的假视频。李和刘在之前发表的一篇论文(链接:https://arxiv.org/abs/1811.00656) 中提到道:“我们观察到,现有的DeepFake算法只能生成出分辨率有限的图像,这些低分辨率图像要经过扭曲才能扩展到和来源视频一样的分辨率。我们的方法就是基于这个观察。”

具体做法上,最开始他们使用传统视觉算法来检测 24,442 张训练图像,提取其脸部关键点。然后,他们通过弯折或扭曲图像中的人脸特征,来模拟 DeepFake 生成的假图片、视频中可能会出现的怪异效果。最后,他们用真实的和扭曲的图像训练了一些卷积神经网络(CNN)作为分类器,该分类器可以给出一个视频为真还是为假的概率。训练完成后,他们向这些卷积神经网络中输入视频的截图,就可以检测这些截图中的人脸到底是真的还是伪造的。

当然也有一些其它的学者贡献了他们方法,包括英国的牛津大学的研究者开发的老牌卷积神经网络VGG16,在假视频识别任务中精度为83.3%,微软的研究者们开发的卷积神经网络ResNet50识别精度则高达97.4%。

AI刑侦检测工具识别假图片

在识别假图片上,美国国防部研究机构DAPRA研发出了首款“反变脸”的AI刑侦检测工具,其原理就是以AI攻AI。这款AI反变脸刑侦工具是DARPA Media Forensics计划的一部分。DARPA资助的Media Forensics计划,旨在成功辨别由机器学习算法生成的虚假图片和视频。该计划研究人员正在尝试开发出一种可扩展的平台化工具,对尤其是基于GAN模型的“Deepfake”生成的假视频和图像进行识别。

纽约州立大学奥尔巴尼分校教授Siwei Lyu和他的学生 Yuezun Li 与 Ming-Ching Chang共同发现,使用AI技术生成的假脸,极少甚至不会眨眼,因为它们都是使用睁眼的照片进行训练的,于是DARPA 基于此开发出了一款工具。他们在论文详细介绍了如何组合两个神经网络,从而更有效地揭露哪些照片是AI合成的,“这些视频往往忽略了自发的、无意识的生理活动,例如呼吸、脉搏和眼球运动”。

检测数字化内容的真假通常涉及三个步骤:

  • 首先是检查数字文件中是否有两个图像或视频拼接在一起的迹象;

  • 第二是检查图像的光照度等物理属性,查找可能存在问题的迹象;

  • 第三步最难自动完成的,也可能是最棘手的,就是检查图像或视频内容在逻辑上是否存在矛盾,比如图像显示拍摄日期的天气与实际天气不符,或者拍摄位置的背景有问题等。

AI审核系统帮助标记假新闻

在去年,麻省理工学院计算机科学与人工智能实验室(CSAIL)和卡塔尔计算研究所的研究人员推出了一套鉴别假新闻的全新AI解决方案。这套方案的新颖之处在于,对其评估的媒介的广泛语境理解,来自于具有确定可信度的维基百科、社交媒体,甚至URL和网络流量数据的结构,而不是单独从新闻文章中提取特征值(机器学习模型所训练的变量)。

据该团队透露,系统只需要150篇文章来确定是否可以可靠地信任某一来源。它在检测新闻来源是否具有高、低或中等水平的“事实性”时准确率可达到65%,并且在检测新闻来源是左倾,右倾还是中等时准确率为70%。

显示研究人员数据库中新闻来源的实际情况VS偏见的图表

在改系统中,受过培训分析文本,视频,图像和音频的AI系统可以昼夜不停地工作,速度远远超过人工的效率。最具讽刺意味的是,网络上制作的假新闻越多,AI审核系统就会变得越好。这是由于机器学习平台基于数据输入自我完善,所以过剩的虚假文章和视频可以不断的训练和提高它们的检测假新闻能力。

随着人工智能技术的普及,它的使用范围会变得更加广泛,使用门槛也会随之降低。当前流行的AI“造假”,从另外一个角度印证了人工智能技术在逐渐成为一项普惠技术,之前人工造假的手段将逐渐被AI代替。而且从目前的情况来看,这种趋势无法阻挡,唯有相关法律法规的完善才能有效制止。无论是AI“造假”还是AI识别假象,我们未来终究会生活在一个AI无处不在的世界,但只要我们合理应用AI技术,同样可以突破其所带来的负面影响,助力我们社会的进步和发展。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

工程DeepFakesAI换脸CNN深度学习机器学习神经网络
1
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

网络流技术

在图论中,网络流(英语:Network flow)是指在一个每条边都有容量(capacity)的有向图分配流,使一条边的流量不会超过它的容量。通常在运筹学中,有向图称为网络。顶点称为节点(node)而边称为弧(arc)。一道流必须匹配一个结点的进出的流量相同的限制,除非这是一个源点(source)──有较多向外的流,或是一个汇点(sink)──有较多向内的流。一个网络可以用来模拟道路系统的交通量、管中的液体、电路中的电流或类似一些东西在一个结点的网络中游动的任何事物。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

推荐文章
暂无评论
暂无评论~