生成对抗网络(GAN)已经是人工智能领域内的一个常用词了,但你听说过对抗生成网络(AGN)吗?近日,卡内基梅隆大学和北卡罗来纳大学教堂山分校的研究者在 arXiv 上发布的一篇论文提出了这种网络,可实现对当前最佳的人脸识别模型的神经网络攻击。
深度神经网络(DNN)已经在人脸验证(即确定两张人脸图像是否属于同一个人)方面超越了人类的水平。不幸的是,研究还表明使用对抗样本(adversarial example)就可以轻易骗过 DNN,而且这样的对抗样本还能通过系统性的方法找到——这里的对抗样本是指经过轻微扰动处理的样本,人眼无法将这些样本与良性的样本区分开。
但是,我们之前的研究表明,这种攻击还可以通过实体的方式实现,即通过创造一个对抗式人造物品来欺骗 DNN——该 DNN 曾经看到过包含该物品的无修改图像。具体来说,这项工作展示了可以如果通过在实体上渲染一个人可以戴上的眼镜来欺骗基于 DNN 的人脸识别。
在这篇论文中,我们在空间的全部三个维度上改进了通过实体方式实现的攻击。我们的攻击的一个关键组件和新颖之处是:不同于只能得到单个可能被某个机器学习算法误分类的大多数攻击算法,我们的方法基于生成对抗网络(GAN)近来的研究成果,可以开发出输出是可以通过实体方式实现的攻击实例的神经网络。我们将这种攻击网络称为对抗生成网络(AGN)。我们将 AGN 的目标设定为两种准确度达到了人类水平的基于 DNN 的人脸识别算法——VGG 和 OpenFace,使该 AGN 可以输出能让攻击者避开正确识别或不引起注意地伪装成特定目标的眼镜。为了证明 AGN 也能在人脸识别之外的领域起效,我们还训练了可以欺骗用于识别手写数字的分类器(是在 MNIST 数据集上训练的)的 AGN。
我们通过实验表明,在白盒环境(其中 AGN 能够访问被攻击的训练后的网络,这是一个典型假设,参见 [47] 等)中训练的 AGN 可以在简单的实体可实现性之外得到具有一些相关特征的攻击。具体而言,我们的研究表明:
- AGN 可以创造在人类看来和正常眼镜(即不是为对抗目的而设计的眼镜)一样不引人注意的眼镜。
- AGN 能得到可以大规模部署的攻击。我们特别展示了我们称之为「通用」的攻击,因为它们能得到一些(10 个或更少)恶意设计的眼镜,其中大部分(而不只是一个攻击者)都可以被用来避开人脸识别。
- AGN 能得到针对某些防御手段稳健的攻击。特别要指出的是,我们可以通过增加使用有标签「攻击」图像(参阅 [34])的训练和为确定输入是否是攻击的检测器(参阅 [39])来改进 VGG 和 OpenFace DNN。
AGN 有一个显著特点:一个训练好的 AGN 能够有效地生成大量不同的对抗样本。这可以被攻击者用来生成不同于之前的攻击的攻击手段(因此更有可能成功),但防御者也可以生成有标签的负例输入,从而增强他们的分类器的训练。
论文:对抗生成网络:针对当前最佳人脸识别的神经网络攻击(Adversarial Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition)
论文地址:https://arxiv.org/abs/1801.00349
在这篇论文中,我们表明针对基于深度神经网络(DNN)的人脸识别系统的误分类攻击比之前人们说明的情况更加危险,即使是在对手仅能操纵她的实际外观的情况下也是如此(相对的还有直接操纵该 DNN 的图像输入)。具体来说,我们展示了一种创造特殊眼镜的方法——戴上这种眼镜时,能够成功实现定向的(伪装成别人)或非定向的(避免被识别)的攻击;同时相比于之前的研究成果,这种攻击在这三个方面中的一个或多个上有所改进:(i) 对观察者而言的不显著性,我们通过用户研究进行了测试;(ii) 在面对被提出的防御手段时的攻击稳健性;(iii) 在解除眼镜创造与佩戴它们的对象之间的关联这个意义上的可扩展性,即通过创造有助于误分类的眼镜的「通用」集合。这些改进的核心是对抗生成网络,这是我们提出的一种用于自动生成可以通过实体方式实现的攻击人造物品(这里是眼镜)的方法。
训练 AGN 的算法如算法 1 所示。该算法的输入是一组良性样本 (X)、一个预初始化的生成器和鉴别器、一个将被欺骗的神经网络、一个真实样本数据集(生成器的输出应该与其中的样本很像)。
图 3 给出了生成器在训练结束时得出的一组眼镜。
图 3:由生成器得到的眼镜样本(左图)和来自训练集的类似眼镜(右图)
G(生成器)和 D(鉴别器)的最终架构在表 1 中给出。
表 1:本研究中所用的神经网络的架构。对于 OpenFace 和 VGG DNN,我们仅报告了为基础、特征提取、DNN 增加的层。Conv 指卷积,Deconv 指去卷积(也叫做转置卷积),FC 指全连接层,Flatten 指矩阵的向量化,LrB 指后面跟着一个 leaky 整流线性层的批规范化,LReLu 指 leaky 整流线性层,MP 指最大池化层,RB 指后面跟着一个整流线性层的批规范化,tanh 指双曲正切。G 和 D 中所有的卷积和去卷积都使用了 5×5 过滤器,步长和填充为 2。检测器的卷积使用的 3×3 过滤器,步长为 2,填充为 1。检测器的 MP 层的窗口大小为 2×2,步长为 2。
表 3:在数字环境中的攻击结果。在每次攻击中,我们使用了对象的 3 张图像来进行误分类。
图 4:一个数字的避免被识别的示例。左图:演员 Owen Wilson 的一张图像,可以被 VGG143 以 1.00 的概率正确分类。右图:使用 AGN 的输出来避开 VGG143 的识别(该图像被分配到正确类别的概率低于 0.01)。
表 4:实体可实现性实验的总结。前两列给出了被攻击的 DNN 和攻击者。
图 7:通用型的避开 VGG143 和 OF143 的识别。x 轴表示用于训练对抗生成器的对象的数量。当对象的数量是 0 时,使用了一个非对抗式的生成器。y 轴表示被误分类(即成功避免被识别)的图像的平均比例。
图 8:来自不同集合的眼镜被标记为真实的时间所占的百分比。这里特别标示了 60% 水平线,是指前一半「真实」眼镜至少有 60% 的时间被标记为真实。
表 7:所选择的眼镜集合对的相对真实度。对于每两个集合之间的比较,我们都在括号中报告了每组中被研究参与者标记为真实的眼镜的比例;另外还报告了组之间的比值比(odds ratio)以及 χ2 独立性测验的 p 值。
图 9:通过 AGN 生成的攻击示例。左图:来自 MNIST 的随机数字样本。中图:预训练的生成器生成的数字。右图:AGN 生成的被该数字识别 DNN 误分类的数字。