利用Capsule重构过程,谷歌大脑Geoffrey Hinton研究团队实现对抗样本的自动检测
近日,谷歌大脑Geoffrey Hinton研究团队发表论文《DARCCC: Detecting Adversaries by Reconstruction from Class Conditional Capsules》,该论文展示了一种新技术:用 capsule 模型检测对抗图像。capsule 模型不仅能够对图像进行分类,还可以利用姿态参数(pose parameters)和正确的顶层 capsule 特征来重建图像。对抗图像与典型的类别预测并不相同,当模型根据对应类别的顶层 capsule 特征重建图像时,它们的重建误差较大。研究者在输入图像及其根据顶层 capsule 得到的重建图像间设置 L2 距离的阈值,该方法可以在三种不同数据集上高效检测对抗图像。
对于训练用来重建图像的 CNN 来讲,例如利用最后一个隐藏层(Softmax 之前)的全部或部分输出重建图像,该技术也很有效。研究者还探索了更强大的白盒攻击,其将重建误差也考虑在内。白盒攻击能够欺骗我们的检测技术,但要想使模型改变预测类别,白盒攻击必须使「对抗」图像类似其他类别的图像。