Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

关于大模型「越狱」的多种方式,有这些防御手段

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

作者:罗昊京(Financial Quantitative Analyst)

此项目是由伊利诺伊大学香槟分校(UIUC)的汪浩瀚教授主导,汇集了多名intern的共同努力而成。长久以来,这个跨学科的团队一直在前沿科技的浪潮中,致力于推动人工智能的革新,尤其关注于其如何更好地服务于人类社会。在这一宏伟的使命指引下,团队专注于解决两大核心问题:一是确保人工智能的可信赖性与对齐性(Trustworthy and Aligned AI),即如何保证其安全有效地融入人类生活;二是探索人工智能在推动生物医疗领域进步中的潜能和应用(Computational Biology)。

随着人工智能(AI)技术的迅猛发展,特别是大语言模型(LLMs)如 GPT-4 和视觉语言模型(VLMs)如 CLIP 和 DALL-E,这些模型在多个技术领域取得了显著的进展。LLMs 已经在自然语言处理任务中展现出了前所未有的能力,而 VLMs 则在图像和文本的融合任务中表现优异。这些技术的应用范围从自动化客服到智能创作,无不展示出其强大的潜力。然而,伴随着这些进展,安全性和伦理对齐的问题也日益凸显。

近年来,越来越多的研究者关注 LLMs 和 VLMs 的越狱现象,即通过特定技术手段绕过这些模型的内置安全机制,生成不符合伦理规范的输出。这些越狱行为不仅对模型的实际应用构成威胁,也对用户的安全和隐私带来潜在风险。因此,理解和防范这些越狱行为成为 AI 安全研究中的一个关键问题。

我们来看一个具体的关于越狱的例子:
图片
在上述例子中,用户输入一个恶意问题(蓝色所示),通常而言,大语言模型会拒绝回答此类问题。然而,当攻击者增加一个精心制作的越狱前缀(黄色所示),大语言模型将会对恶意问题进行详细的解答。同样,防御者可以通过增加一些安全提示(红色所示),提醒大语言模型重新思考所给出的答案,中止恶意回复。

针对上述越狱现象,近期,来自伊利诺伊大学香槟分校,布朗大学,密歇根大学安娜堡分校,香港科技大学,卡内基梅隆大学和博伊西州立大学的研究者联合发布了一篇综述,详细探讨了 LLMs 和 VLMs 的越狱现象,对各种越狱类型和相应的防御机制进行了系统分类和分析。通过对现有研究的全面综述,旨在为学术界和工业界提供一个关于 AI 模型安全性的全面视角,并提出应对这些挑战的有效策略。

图片

  • 论文地址:https://arxiv.org/pdf/2407.01599
  • 项目地址:https://github.com/Allen-piexl/JailbreakZoo
  • 网站地址:https://chonghan-chen.com/llm-jailbreak-zoo-survey/

这篇综述提供了:

1. 越狱分类:我们将关于LLMs的越狱现象细分为5种类型,将关于VLMs的越狱现象细分为3种类型,提供了每种类型的详细分类和理解。以下是我们分类的主要内容:

LLMs

  • 梯度攻击(Gradient-based Attacks)

  • 进化攻击(Evolutionary-based Attacks)

  • 演示攻击(Demonstration-based Attacks)

  • 规则攻击(Rule-based Attacks)

  • 多代理攻击(Multi-agent-based Attacks)

VLMs

  • 提示到图像注入的越狱攻击(Prompt-to-Image Injection Jailbreaks)

  • 提示-图像扰动注入越狱攻击(Prompt-Image Perturbation Injection Jailbreaks)

  • 代理模型迁移越狱攻击(Proxy Model Transfer Jailbreaks)

此外,我们进一步整理了现有的利用越狱攻击对LLMs和VLMs进行评测的方法,以及一些相关的综述。

2. 防御机制:我们回顾并分类了各种防御策略,我们发现,LLMs和VLMs有着类似的防御机制,强调了统一方法以应对这些越狱漏洞的必要性。主要防御机制包括:

  • 提示检测(Prompt Detection-based Defenses)

  • 提示扰动(Prompt Perturbation-based Defenses)

  • 演示防御(Demonstration-based Defenses) 

  • 生成干预(Generation Intervention-based Defenses)

  • 响应评估(Response Evaluation-based Defenses) 

  • 模型微调(Model Fine-tuning-based Defenses)

3. 未来研究方向:我们的综述突出了当前研究中的关键空白,并提出了未来的研究方向,以增强LLMs和VLMs的安全框架。

越狱类型及实例 - 大语言模型(LLMs)

在我们的研究中,我们将大语言模的越狱现象进行了系统分类,归纳为七种主要类型。每种类型都有其独特的攻击方法和技术细节,通过对这些越狱类型的深入分析,我们希望能够揭示这些模型在安全性方面的潜在漏洞,并为未来的防御工作提供指导。

图片

1. 梯度攻击(Gradient-based Attacks)

梯度攻击通过利用模型的梯度信息,生成有害响应。例如,使用梯度坐标贪婪算法(GCG)生成后缀,使模型生成有害内容。此方法通过梯度优化生成能避开模型检测的提示,从而使 LLM 输出有害的响应。此类攻击常用于测试模型的安全性和鲁棒性,研究者通过此类攻击可以发现模型的潜在漏洞,并进行相应的修复和优化。

图片

2. 进化攻击(Evolutionary-based Attacks)

进化攻击使用遗传算法生成对抗性提示,优化语义相似性、攻击效果和流畅性。例如,FuzzLLM 通过随机组合模板、约束和问题集生成攻击指令。这些方法使用进化策略逐步改进提示,以找到最有效的攻击手段。进化攻击特别适合在黑盒环境中使用,即攻击者对模型内部结构和参数未知的情况下,也能进行有效攻击。

图片

3. 演示攻击(Demonstration-based Attacks)

演示攻击通过创建特定的系统提示,指示 LLMs 生成预期的响应。这些方法通常是硬编码的,提示经过精心设计以引导模型生成所需的响应。例如,DAN 方法通过预设的对话框架,使模型在 “开发者模式” 下生成本不应生成的内容。演示攻击利用模型的上下文学习能力,通过提供一系列示例,使模型更容易产生目标响应。

图片

4. 规则攻击(Rule-based Attacks)

规则攻击通过预定义的规则将恶意成分分解并重定向。攻击者设计复杂的规则,隐藏恶意内容。例如,通过词汇替换将有害意图编码为看似正常的内容,从而绕过模型的检测。这类攻击方法特别适用于绕过简单的基于关键字的检测系统,使攻击内容在输入时显得无害。

图片

5. 多代理攻击(Multi-agent-based Attacks)

多代理攻击利用多个 LLMs 合作,生成、组织和改进越狱提示。这些方法通过模拟多模型协作的方式,提高越狱攻击的效果。例如,PAIR 方法利用多个代理模型生成和评估提示,不断优化攻击策略。这种方法特别适合用于需要迭代改进的攻击场景,通过多次尝试和反馈,找到最有效的攻击手段。

图片

越狱类型及实例 – 视觉语言模型(VLMs)

与大语言模型(LLM)类似,与视觉语言模型(VLM)相关的越狱也已成为一个重要关注点。由于所有 VLM 都使用 LLM 组件进行文本编码,因此影响 LLM 的漏洞也可能会危及 VLM。此外,VLM 中视觉输入的引入不仅拓宽了其功能范围,还显著增加了攻击面,从而加剧了涉及的安全风险。与主要针对文本输入的 LLM 越狱不同,VLM 的恶意操纵可以通过视觉输入、文本组件或两者的组合进行,表现出更加复杂和多样的模式。

图片

1. 提示到图像注入的越狱攻击(Prompt-to-Image Injection Jailbreaks)

通过将恶意提示注入到图像生成过程中来绕过模型的安全机制。攻击者设计特定的文本提示,使模型生成含有不良或不符合伦理的图像。例如,攻击者可以利用一些敏感词汇或语句来引导模型生成攻击性或误导性的图像。

图片

2. 提示 - 图像扰动注入越狱攻击(Prompt-Image Perturbation Injection Jailbreaks)

提示 - 图像扰动注入越狱攻击结合了文本提示和图像扰动,通过在输入提示中加入微小的扰动,使模型生成错误或有害的响应。例如,攻击者可以在图像中加入几乎不可见的像素变化,同时调整文本提示,以引导模型生成偏离预期的描述或内容。这种方法利用了模型对微小变化的敏感性,使其难以检测和防御。

图片

3. 代理模型迁移越狱攻击(Proxy Model Transfer Jailbreaks)

代理模型迁移越狱攻击利用代理模型进行攻击,即在较小的代理模型上训练和优化攻击,然后将其转移到目标模型上。攻击者在代理模型上进行大量试验,找到有效的攻击方式,再将这些攻击应用到目标模型上。此类攻击可以有效绕过目标模型的安全机制,因为代理模型和目标模型可能共享相似的弱点和漏洞。

图片

防御机制及实例 - 大语言模型(LLMs)

图片

1. 提示检测(Prompt Detection-based Defenses)

提示检测基于输入提示的特征,如困惑度(Perplexity)和长度,评估提示的有害性。例如,通过困惑度计算器 LLM 检测输入提示的困惑度,判断其是否安全。提示检测是最早的防御策略之一,利用模型对高困惑度提示的不敏感性来判断提示的安全性。

图片

2. 提示扰动(Prompt Perturbation-based Defenses)

提示扰动通过对输入提示进行修改,破坏其恶意意图。例如,通过语义扰动和重新分词技术生成多个变体,评估每个变体的响应是否安全。此类方法利用了恶意提示对精确结构和词序的依赖,通过随机扰动破坏这些结构,使其难以成功执行攻击。

图片

3. 演示防御(Demonstration-based Defenses)

演示防御通过设置安全的系统提示,引导 LLM 生成安全响应。例如,使用自我提醒提示模型生成安全的响应。演示防御利用了模型的上下文学习能力,通过提供正面示例,增强模型对安全响应的倾向。

图片

4. 生成干预(Generation Intervention-based Defenses)

生成干预通过调整 LLM 的响应生成过程,确保输出的安全性。例如,RAIN 方法通过反复生成和评估 token,确保生成的内容安全。此类方法在生成过程中实时干预,动态调整输出内容,以避免生成有害响应。

图片

5. 响应评估(Response Evaluation-based Defenses)

响应评估通过对生成的响应进行评估,确保其安全性。例如,利用辅助 LLM 评估响应的有害性,并进行迭代改进。此类方法利用模型对自身生成内容的评估能力,通过不断优化,确保最终输出的安全。

图片

6. 模型微调(Model Fine-tuning-based Defenses)

模型微调通过调整 LLM 的内部参数,增强其安全性。例如,通过在混合数据上训练模型,使其对有害内容更加敏感,从而生成更安全的响应。此类方法直接改变模型的行为,使其在面对恶意提示时能够做出更安全的决策。

图片

防御机制及实例 – 视觉语言模型(VLMs)

在视觉语言模型中,许多防御策略与大语言模型的防御策略相似。这些策略通过调整模型的内部参数、评估生成的响应以及扰动输入提示来增强模型的安全性。

图片

1. 提示扰动防御(Prompt Perturbation-based Defenses)

提示扰动通过对输入提示进行修改,破坏其恶意意图。例如,通过语义扰动和重新分词技术生成多个变体,评估每个变体的响应是否安全。此类方法利用了恶意提示对精确结构和词序的依赖,通过随机扰动破坏这些结构,使其难以成功执行攻击。

图片

2. 响应评估防御(Response Evaluation-based Defenses)

响应评估通过对生成的响应进行评估,确保其安全性。例如,利用辅助 VLM 评估响应的有害性,并进行迭代改进。此类方法利用模型对自身生成内容的评估能力,通过不断优化,确保最终输出的安全。

图片

3. 模型微调防御(Model Fine-tuning-based Defenses)

模型微调通过调整 VLM 的内部参数,增强其安全性。例如,通过在混合数据上训练模型,使其对有害内容更加敏感,从而生成更安全的响应。此类方法直接改变模型的行为,使其在面对恶意提示时能够做出更安全的决策。

图片

未来研究方向

我们的研究不仅分析了当前 LLMs 和 VLMs 越狱现象及其防御机制,还发现了现有研究中的一些关键空白。这些空白为未来的研究提供了重要的方向,以进一步增强 AI 模型的安全性和鲁棒性。以下是我们提出的几个未来研究方向:

1. 多模态越狱攻击与防御

随着多模态 AI 系统的快速发展,如何在结合文本和图像的环境中进行越狱攻击并有效防御成为一个重要课题。未来研究应重点关注多模态模型中的越狱技术,包括如何利用视觉和文本输入的协同作用来规避安全机制。同时,需要开发专门针对多模态系统的防御策略,以确保这些系统在处理复杂任务时的安全性。

2. 自动化越狱检测与修复

现有的越狱检测方法大多依赖于手工设计的规则和特征,效率较低且难以适应不断变化的攻击手段。未来研究可以探索利用机器学习深度学习技术,开发自动化的越狱检测与修复系统。这些系统应能够实时检测并修复潜在的越狱攻击,提升模型的自我保护能力。

3. 强化学习在越狱防御中的应用

强化学习(Reinforcement Learning, RL)在越狱防御中的应用具有广阔前景。通过 RL,模型可以在不断的交互中学习如何识别和防御越狱攻击。例如,利用 RL 技术,模型可以动态调整其内部参数和响应策略,以应对不同类型的攻击。未来研究应深入探索 RL 在越狱防御中的应用,并开发相应的算法和工具。

4. 越狱攻击的伦理与法律研究

随着越狱技术的不断发展,其潜在的伦理和法律问题也逐渐显现。未来研究应关注越狱攻击的伦理和法律影响,包括如何制定相关法规和政策来规范越狱行为。此外,还需要探索如何在技术和法律层面有效平衡创新与安全,确保 AI 技术的可持续发展。

5. 开放与封闭模型的安全对比研究

当前的研究多集中于开放源代码的模型,而对封闭源代码模型的研究相对较少。未来应更多关注开放与封闭模型在安全性方面的差异,研究如何在封闭环境中实现高效的安全防御。同时,还需探索开放模型社区的协作机制,以共享和推广有效的防御策略。

6. 用户教育与防护

除了技术层面的防御,用户教育也是防范越狱攻击的重要环节。未来研究应开发针对不同用户群体的教育资源,提高用户对越狱攻击的认知和防范能力。通过增强用户的安全意识,可以有效减少越狱攻击的成功率,从而提升整体系统的安全性。

总结

语言模型(LLMs)和视觉语言模型(VLMs)的越狱现象和防御机制有许多共性和差异。共性源于它们都基于深度学习技术和类似的神经网络结构,且主要处理自然语言内容,因此在面临梯度攻击、进化攻击等威胁时表现出相似的脆弱性。防御策略如提示检测、提示扰动、生成干预、响应评估和模型微调在两者中也有广泛应用。然而,VLMs 由于需要处理图像和文本的组合输入,其攻击手段更为复杂,包括 Prompt-to-Image Injection 和 Prompt-Image Perturbation Injection 等多模态攻击。防御机制也因此更复杂,需要同时考虑视觉和语言输入的特性。VLMs 的训练成本较高,Proxy Model Transfer Jailbreaks 在这种情况下更为常见,攻击者利用代理模型优化攻击,再将其应用于目标模型。此外,LLMs 和 VLMs 在应用场景上有所不同,LLMs 主要用于文本生成对话系统,而 VLMs 则用于图像生成和图文理解任务。这些共性和差异为理解和应对 AI 模型的安全威胁提供了重要的洞见,未来研究应继续关注这些方面,以开发更有效的防御策略,确保 AI 技术的安全应用。
理论
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

遗传算法技术

遗传算法是计算数学中用于解决最优化的搜索算法,是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。 遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题,一定数量的候选解可抽象表示为染色体,使种群向更好的解进化。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

进化策略技术

进化策略(Evolutionary Strategies,ES)是由德国的I. Rechenberg和HP. Schwefel于1963年提出的。ES作为一种求解参数优化问题的方法,模仿生物进化原理,假设不论基因发生何种变化,产生的结果(性状)总遵循零均值、某一方差的高斯分布。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

对话系统技术

对话系统大致可以分为两类:(1)面向任务的系统和(2)非面向任务的系统。面向任务的系统旨在帮助用户完成某些任务(例如查找产品,预订住宿和餐馆);非面向任务的系统在与人类交互过程中提供合理的反应和娱乐。通常,非面向任务的系统致力于在开放域与人交谈。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

推荐文章
暂无评论
暂无评论~