2018/10/26 14:31

亚马逊名人鉴别系统21分钟即遭破解：GeekPwn对抗样本挑战赛冠军出炉

10 月 24 日，2018 GeekPwn 国际安全极客大赛在上海展开角逐，在众多极具创意的网络安全破解展示之中，由 FAIR 研究工程师吴育昕、约翰霍普金斯大学在读博士谢慈航组成的团队获得了最为令人瞩目的「CAAD（对抗样本挑战赛）CTF」的冠军。

GeekPwn 旨在通过集结全球最强黑客，通过预演智能设备及人工智能应用的破解，助力人们解决互联网领域中的各类安全问题。今年的大赛已是第五届。

本次大赛联合 GAN 之父 Ian Goodfellow，谷歌大脑科学家 Alexey Kurakin、加州伯克利教授宋晓冬等人共同发起、推出了 CAAD 对抗样本攻防赛（Competition on Adversarial Attacks and Defenses），致力于推动人工智能机器学习领域对抗攻击防御的技术发展。

据悉，该比赛于今年 5 月线上赛正式开赛。大赛聚焦让机器学习分类器频频犯错的对抗样本问题，通过机器学习图像识别领域的安全攻防对抗研究，预演 AI 领域可能存在的风险。「对抗样本攻防赛」针对图像识别领域的对抗攻击与防御研究分别设置了三个项目。

21 分钟破解亚马逊 Celebrity Recognition

线上的比赛在 9 月已经结束，赛会从全球的 100 余支队伍中选出了最强的 6 支队伍参加了24号的决赛。而在激烈的现场比赛之后，由吴育昕与谢慈航组成的「IYSWIM」战队同时取得了上下两个半场比赛的胜利，获得了最终的冠军。

在决赛上半场中，赛会要求所有选手进行非定向图片（将飞行器识别为任何其他物体）、定向图片（将武器识别为特定的其他物品）以及亚马逊名人鉴别系统（将大赛主持人蒋昌建的照片识别为施瓦辛格）共计三种图像的对抗样本攻击。由于在比赛前选手并不知晓题目模型所采用的算法，所以此类攻击也被称为「黑盒攻击」，其中第三个挑战在赛前更是被评委视为「无法完成的任务」。

令人惊讶的是，IYSWIM 战队在限时 30 分钟的比赛中，首先于 21 分钟破解了亚马逊名人鉴别系统 Celebrity Recognition，并随后在定向图片的对抗样本攻击上破解成功，取得了领先。

吴育昕在 CAAD CTF比赛中

在下半场的比赛中，参赛的六队选手们各自设置了预先准备好的对抗样本防御体系，并互相展开攻击，攻击成功的次数越多，则得到的分数越高。IYSWIM 战队在比赛中后来居上，取得了下半场的胜利。

在比赛结束后，吴育昕作为获胜团队的代表向我们进行了介绍。与多数人工智能数据竞赛不同，本次竞赛需要参赛者利用预先训练好的机器学习模型，在 30 分钟内提交结果，试图攻破赛会设置的几个图像识别系统，每张图片上可以修改的像素数量被限制在 32 以内。

IYSWIM 是决赛中唯一一个攻破亚马逊人脸识别技术的团队，吴育昕表示这是一个非常困难的挑战：「在学术界我也没有搜索到以往存在人脸识别上的对抗样本研究。对此，我们仿照图片分类上的一些方法进行了尝试——在这之前，我也没想到我们使用的方法是有效的。」

在模型设计上，获胜战队使用了多种模型整合的方法，其中包括一些团队成员自行设计的模型，这样的配置取得了良好的效果。

输出这样的对抗样本需要什么样的硬件配置？吴育昕表示不同的方法对于算力的需求不尽相同。依照本次比赛的时限要求，他们选择了能使用一台笔记本电脑几分钟内输出结果的模型。而在训练这些模型的时候，则需要 8 块高性能 GPU 运行一天以上时间。

冠军团队

在 CAAD CTF 比赛中夺冠的团队 IYSWIM 由两人组成，其中来到决赛现场的吴育昕来自 Facebook 人工智能研究部门 FAIR，他主要进行计算机视觉方面的研究。值得一提的是他的论文《Group Normalization》在今年 9 月份刚刚获得了 ECCV 2018 最佳论文荣誉提名奖（参见：ECCV 2018 奖项公布：德国团队获最佳论文，吴育昕、何恺明上榜）。

另一名选手谢慈航则是约翰霍普金斯大学的三年级在读博士，他同样也是计算机视觉方面的学者，曾有多篇论文被 CVPR、ICLR 等人工智能顶会接收。此前，谢慈航在对抗样本方向上有过一些研究。

谢慈航

对抗样本：人工智能的弱点

在神经网络中，导致网络输出结果不正确的输入内容被称为对抗样本。我们可以通过一个例子来进行说明。如下图所示：在某些图像分类网络中，这张图被认为是熊猫的置信度是 57.7%（左图），且其被分类为熊猫类别的置信度是所有类别中最高的，因此神经网络得出一个结论：图像中有一只熊猫。但是，通过添加少量精心构造的噪点，我们可以得到一个这样的图像（右图）：对于人类而言，它和左图几乎一模一样，但神经网络却认为，其被分类为「长臂猿」的置信度高达 99.3%。

图片来源： Explaining and Harnessing Adversarial Examples，Goodfellow et al

为了解决神经网络对抗样本的问题（Szegedy et al., 2013），近期人们对于构建防御对抗样本，增加神经网络鲁棒性的研究越来越多。尽管人们对于对抗样本的认识已经提升，相关的防御方法也有提出，但迄今为止并没有一种完美的解决方法出现。

「对抗样本的研究和其他的研究不太一样，没有特定的方向，」吴育昕表示，「在对抗样本上，人们提出的攻击手段正在不断提高，防御手段也在不断提高。这是一个交替上升的过程。我也只是在最近几个月才开始接触这一方向。我认为目前人们还无法找到完美的攻击或防御方式，大家还在不断地互相提高。」

面对挑战，GAN 提出者 Ian Goodfellow 曾联合 Alexey Kurakin、Samy Bengio 共同在 2017 年的 NIPS 大会上举办了对抗样本攻防竞赛，以推动人们在对抗样本方面的研究。近年来人们对于这一方面的研究也越来越多。

「我们可以看到，目前的人工智能在图像识别上还有很多问题。」吴育昕表示。在未来，随着人工智能技术的发展，AI 必将负责控制越来越多重要任务，这意味着类似于对抗样本的机器学习安全漏洞可能带来巨大的危害。GeekPwn 极客大赛为我们带来了提前发现、解决问题的机会。

产业GeekPwn对抗样本黑客网络安全FAIR计算机视觉

来源：Goodfellow, I.个人页面

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

规范化技术

规范化：将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0 到1.0 或0.0 到1.0。通过将属性数据按比例缩放，使之落入一个小的特定区间，如0.0到1.0，对属性规范化。对于距离度量分类算法，如涉及神经网络或诸如最临近分类和聚类的分类算法，规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘，对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法，规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比，权重过大。有许多数据规范化的方法，包括最小-最大规范化、z-score规范化和按小数定标规范化。

来源：Jiawei Han;Micheline Kamber著数据挖掘概念与技术机械工业出版社

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本，它们看上去与真实样本的几乎相同（无法用肉眼分辨），但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

来源：Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572.