Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

ECCV 2024 | 让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者分别来自南开大学、南洋理工大学和新加坡科技局。第一作者高森森为南开大学大四学生,此工作为其在新加坡科技局实习期间完成,实习导师为本文通讯作者郭青研究员(主页:https://tsingqguo.github.io)。本文的共同第一作者和共同通讯作者是南洋理工大学的加小俊博后研究员(主页:https://jiaxiaojunqaq.github.io)。

针对视觉-语言预训练(Vision-Language Pretraining, VLP)模型的对抗攻击,现有的研究往往仅关注对抗轨迹中对抗样本周围的多样性,但这些对抗样本高度依赖于代理模型生成,存在代理模型过拟合的风险。

为了解决这一问题,我们引入了对抗轨迹交集区域的概念。这个区域由干净样本、当前对抗样本以及上一步对抗样本所构成的三角形区域。通过利用这一区域的多样性,我们不仅考虑了更加多样化的扰动方向,还关注了干净样本周围的对抗多样性,从而提升了对抗样本的迁移性。

本篇工作的论文和代码均已开源。

图片

  • 论文题目:Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory
  • 论文链接:https://arxiv.org/pdf/2403.12445
  • 代码链接:https://github.com/SensenGao/VLPTransferAttack

研究背景

近年来,ChatGPT-4等视觉 - 语言预训练模型(VLP)展示了强大的多模态理解和生成能力,在图像识别、文本生成等任务中表现出色。然而,这些模型的强大性能也伴随着一个显著的安全隐患:对抗攻击(Adversarial Attacks)。对抗攻击是指通过对输入数据进行微小且难以察觉的扰动,诱使模型产生错误输出。这种攻击方式不仅可以影响模型的预测准确性,甚至可能导致严重的安全问题。

由于 ChatGPT-4 等商业模型通常是闭源的,攻击者无法直接访问其内部参数和结构信息,这使得直接攻击这些模型变得困难。然而,攻击者可以通过对类似的开源或已知结构的 VLP 模型(如 CLIP)进行研究,生成对抗样本并将其应用于闭源商业模型。这种方法被称为对抗攻击的迁移攻击(Transfer Attack)

对抗攻击的迁移性研究具有重要意义。一方面,了解对抗攻击在不同模型间的迁移性,可以提高对这些商业闭源模型的攻击成功率,从而帮助我们更好地评估和提升闭源模型的安全性,防止潜在的安全漏洞。另一方面,通过研究对抗样本在不同模型上的表现,可以进一步优化对抗训练方法,提高模型的鲁棒性和抗攻击能力。

动机

图片

                                   图 1:现有方法对于 VLP 模型在代理模型和目标模型上的攻击成功率 (图片来源:SGA (arXiv:2307.14061))。

SGA (ICCV2023 Oral) 是第一篇探索对 VLP 模型进行迁移攻击的工作,但实验结果显示在目标模型上的攻击成功率远低于代理模型。本研究的目标是探索 SGA 方法在目标模型上迁移性较差的因素,进一步提高对 VLP 模型迁移攻击的成功率

图片

                              图 2:SGA 和我们方法的对比。

如图 2 所示,SGA 采用迭代攻击,并在迭代优化路径上通过图像增强(Resize)来增加对抗样本的多样性。然而,这种多样性仅考虑了对抗图像的周围区域,而对抗图像由代理模型生成,容易导致过拟合,从而降低了迁移性。

干净样本完全独立于代理模型,因此我们认为干净样本周围的对抗多样性同样重要。为此,我们利用对抗轨迹的交集区域构建更广泛的多样性,它由干净图像、当前对抗图像和上一步对抗图像构成。

方法

图像模态

首先,我们在所提出的对抗轨迹交集区域中采样多个图像,并得到多样化的对抗扰动方向:

图片

随后,我们使用文本引导进行采样图像的选择:

图片

此时即表示最佳的采样图像,我们同时采用了 SGA 的思想,通过图像增强操作进一步探索最佳采样图像周围的对抗扰动多样性,最终的迭代表示为:

图片

文本模态

过去的研究在生成对抗文本时,先通过迭代优化生成对抗图像,随后使对抗文本偏离最终生成的对抗图像。然而,正如我们前面所述,对抗图像高度依赖于代理模型,这样生成的对抗文本也存在过拟合的风险。

我们提议让对抗文本偏离沿对抗轨迹的最后一个交集区域,具体而言,对抗文本应偏离由原始图像图片、倒数第二个对抗图像图片和最终对抗图像图片构成的三角区域。此外,我们设置了可调节的系数因子,其中图片

图片

实验效果

跨模型迁移性

下表 1 显示了在图像 - 文本检索(Image-Text Retrieval, ITR)任务中跨模型攻击的迁移性。相比于 SGA,我们的方法在多个跨模型迁移性上提升了 10% 以上。

图片

跨任务迁移性

下表 2 显示了利用在图像 - 文本检索(ITR)任务上预训练的 ALBEF 模型,生成多模态对抗样本,以攻击 RefCOCO + 数据集上的视觉定位(VG)任务和 MSCOCO 数据集上的图像描述(IC)任务。基线表示每个任务在没有任何攻击时的性能,较低的值表示对这两个任务的对抗攻击效果更好。

图片

攻击可视化

下图 3 显示了对视觉定位任务攻击的可视化。

图片

下图 4 显示了对图像描述任务攻击的可视化。

图片

从图 3 和图 4 可以看出,通过对抗攻击,使 VLP 模型在视觉定位和图像描述任务上均出现了严重错误。

下图 5 显示了对 ChatGPT-4 迁移攻击的可视化。

图片

下图 6 显示了对 Claude-3 迁移攻击的可视化。

图片

我们分别将干净图像和对抗图像输入 ChatGPT-4,Claude-3 等大模型,并使用查询「Describe this image.」得到输出结果,我们从图 5 和图 6 可以看到,两个大模型对对抗图像的理解已经出现很大的错误。

结语

尽管该工作在提升多模态对抗攻击迁移性方面取得了显著效果,但如何更充分地利用对抗攻击的交集区域,以及提供更深入的理论解释,仍然是未来值得深入研究的方向。我们对对抗轨迹交集区域及其对 VLP 对抗攻击迁移性的研究还在持续探索中,欢迎大家持续关注。如果有任何问题或进一步的想法,随时欢迎讨论。
工程
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

文本检索技术

文本检索(Text Retrieval)与图象检索、声音检索、图片检索等都是信息检索的一部分,是指根据文本内容,如关键字、语意等对文本集合进行检索、分类、过滤等。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

图像增强技术

图像增强技术用于增强图像中的有用信息,它可以是一个失真的过程,其目的是要改善图像的视觉效果,针对给定图像的应用场合。它通过有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

推荐文章
暂无评论
暂无评论~