Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

将越狱问题转换为求解逻辑推理题:「滥用」推理能力让LLM实现自我越狱

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

应宗浩,现为北航复杂关键软件环境全国重点实验室博士生,由刘艾杉教授、刘祥龙教授与陶大程教授共同指导,目前研究兴趣为大模型越狱攻防。他所在的智能安全团队由刘祥龙教授负责,近期在大模型安全评测体系方面进行了系列研究工作,包括对抗攻击、后门投毒、越狱攻击、偏见调控等,发表 TPAMI、IJCV、ICML 等顶会顶刊论文 100 余篇。

大语言模型(LLMs)在当今的自然语言处理领域扮演着越来越重要的角色,但其安全性问题也引发了广泛关注。

近期,来自北京航空航天大学、360 AI 安全实验室、新加坡国立大学和南洋理工大学的研究团队提出了一种名为「Reasoning-Augmented Conversation(RACE)」 的新型多轮攻击框架,旨在通过推理增强的对话方式,突破大语言模型的安全对齐机制。这一研究引发了学术界和工业界的广泛关注。
图片
  • 论文标题:Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
  • 论文链接:https://arxiv.org/pdf/2502.11054
  • GitHub 链接:https://github.com/NY1024/RACE

RACE 框架的核心思想
推理增强对话,解锁大语言模型的「越狱」新路径

大语言模型(LLMs)在推理和逻辑任务中表现出色,但这种强大的推理能力却可能被恶意利用。

RACE 框架的核心思想正是利用这些模型的推理能力,将有害意图伪装成看似无害的复杂推理任务,从而在不知不觉中引导模型生成有害内容,突破其安全对齐机制
图片
为何选择推理增强攻击?

大语言模型在逻辑推理、常识推理和数学解题等任务中表现出色,但这种强大的推理能力却可能被恶意利用。

传统的攻击方法通常直接发送有害查询,很容易被模型的安全机制识别并拒绝。然而,推理任务通常被视为「良性」问题,模型会积极尝试解答。RACE 框架正是抓住了这一点,将有害意图巧妙地转化为推理任务,让模型在解答过程中不知不觉地生成有害内容。
图片
RACE 的设计原则:推理任务的「双面性」

RACE 框架的核心设计基于推理任务的「双面性」:一方面,推理任务本身是无害的,模型会积极尝试解答;另一方面,这些任务的设计却暗藏玄机,其解答过程会逐步引导模型生成有害内容。

具体来说,RACE 框架将攻击分为两个角色:受害者模型影子模型

  • 受害者模型:专注于解决推理任务,看似在进行合法的推理。
  • 影子模型:负责生成和优化查询,但并不直接识别背后的有害意图。

独立来看,每个角色似乎都在进行合法的推理活动。然而,当两者结合时,这种互动却最终导致了攻击的成功。这种设计巧妙地利用了大语言模型的推理能力,使其在不知不觉中「自我越狱」。

如何实现推理驱动的攻击?

为了实现这种推理驱动的攻击,RACE 框架引入了以下关键机制:

  • 攻击状态机(ASM)框架:将攻击过程建模为一系列推理状态和状态转换,确保每一步都符合逻辑推理的规则,同时逐步推进攻击目标。这种结构化的攻击方式不仅提高了攻击的成功率,还使得攻击过程更加难以被检测。
  • 动态优化与恢复机制:通过增益引导探索(Gain-guided Exploration)、自我博弈(Self-play)和拒绝反馈(Rejection Feedback)三个模块,动态优化攻击过程。

三大核心模块

  • 增益引导探索(Gain-guided Exploration):该模块通过信息增益(Information Gain)来衡量查询在攻击过程中的有效性,选择与目标语义一致且能提取有用信息的查询,确保攻击的稳步进展。
图片
  • 自我博弈(Self-play):自我对抗模块通过模拟受害者模型的拒绝响应,提前优化查询结构,提高攻击效率。这一模块利用影子模型和受害者模型之间的相似性,通过 “自我博弈” 来优化查询。
图片
  • 拒绝反馈(Rejection Feedback):当攻击尝试失败时,拒绝反馈模块会分析失败的原因,并将失败的查询重构为替代的推理任务,从而快速恢复并维持攻击的稳定性。
图片
实验结果
攻击成功率大幅提升

研究团队在多种大语言模型上进行了广泛的实验,包括开源模型(如 Gemma、Qwen、GLM)和闭源模型(如 GPT-4、OpenAI o1、DeepSeek R1 等)。

实验结果表明,RACE 在复杂对话场景中表现出色,攻击成功率(ASR)最高可达 96%。尤其是在针对领先的商业推理模型 OpenAI o1 和 DeepSeek R1 时,RACE 的攻击成功率分别达到了 82% 和 92%,这一结果凸显了推理驱动攻击的潜在威胁。
图片
防御机制

尽管 RACE 在攻击效率上表现出色,但研究团队也对其防御机制进行了评估。结果显示,现有的防御方法(如 SmoothLLM、Self Reminder、ICD 和 JailGuard)对 RACE 的缓解效果非常有限,攻击成功率仅降低了 1% 到 17.6%。这表明,推理驱动的攻击方法对现有防御机制具有很强的鲁棒性。
图片
研究意义与展望

RACE 框架的提出不仅揭示了大语言模型在推理能力上可能存在的安全漏洞,也为开发更强大的安全机制提供了新的思路。研究团队强调,他们的目标是通过系统性地评估大语言模型的安全性,推动更安全的对齐技术的发展,而不是鼓励恶意使用这些研究成果。

随着大语言模型在各个领域的广泛应用,其安全性问题将成为研究和开发的重点。RACE 框架的提出,无疑为理解和防范大语言模型的安全威胁提供了重要的参考。未来,如何开发出能够有效抵御推理驱动攻击的安全机制,将是学术界和工业界需要共同面对的挑战。
工程RACE
暂无评论
暂无评论~