让 AI 智能体学会「三思而后行」和「换位思考」,实现对虚假欺骗信息的甄别与应对,为通用人工智能增加安全屏障。
大语言模型(Large Language Model,LLM)的进展促进了 AI 智能体(特别是 LLM 智能体)的蓬勃发展。在通往通用人工智能的道路上,AI 智能体将有能力在无人监管的情况下进行自主思考与决策。然而,较少有研究者关注如何在未来无人监管的情况下,防止 AI 智能体被欺骗和误导。由于人类社会中存在很多误导和欺骗性的信息,如果 AI 智能体无法有效识别和应对这些信息,可能会在未来造成不可估量的后果。
近日,清华大学与通用人工智能研究院的研究团队以阿瓦隆(Avalon)桌游为例,测试了当前大语言模型在充满欺骗的环境下存在的问题,并针对这些问题提出了 ReCon(Recursive Contemplation,递归思考)框架。其通过借鉴人类思考中的 「三思而后行」以及 「换位思考」的特点,极大地提升大语言模型识别和应对欺骗的能力,从而提高了人类用户使用 AI 智能体的安全性与可靠性。此外,这项研究还进一步讨论了现有的大语言模型在安全、推理、说话风格、以及格式等方面存在的局限性,为后续研究指出可能的方向。
Arxiv 链接:https://arxiv.org/abs/2310.01320
该研究的贡献主要体现在四个方面:
发现了当前 LLM 智能体在应用于欺骗性环境时的局限性,并提出用阿瓦隆桌游来测试 LLM 智能体识别和应对欺骗的能力;
从人类的「三思而后行」以及换位思考得到启发,提出 ReCon 框架,主要包含两阶段的思考过程(即「构思思考」以及「改进思考」),该两阶段过程分别包含了「一阶视角转换」和「二阶视角转换」的换位思考方式;
在阿瓦隆桌游环境中,将提出的 ReCon 框架应用于不同的 LLM 并进行大量实验。在胜率以及多维度评估等指标上,ReCon 都能在无需任何微调以及额外数据等情况下,极大地提升 LLM 识别和应对欺骗的能力;
进一步对 ReCon 的有效性提出可能的解释,并讨论了当前 LLM 在安全、推理、说话方式、和格式上的不足,为后续研究指出了可能的方向。
接下来,我们一起来看看该研究的细节。
LLM 在欺骗性环境中面临的挑战
图 1 LLM 在欺骗性环境中所面临的挑战,以及提出的 ReCon 框架较好地解决了这些挑战尽管目前大语言模型在多个领域表现出强大的潜能,但在欺骗性环境中的应用表现仍然有待提升。作为 LLM 智能体在欺骗性环境中应用的初步尝试,研究者选择了阿瓦隆游戏(一款涉及推理和欺骗的桌游)作为实验环境,在此基础上探究目前 LLM 智能体面临的三大挑战(如图 1 所示):恶意信息的误导、私有信息泄露以及内部思考的不透明性。首先, LLM 智能体在面对别有用心的恶意欺骗性信息时容易被误导。如图 1(a)所示,当采用Chain-of-Thoughts(CoT)方法时,模型不仅没有识别出欺骗,反而进一步加强了对坏人角色有益性的错误信念。其次,LLM 智能体在保护隐私信息方面存在不足。如图 1(b)所示,即使在提示不要暴露私有信息的情况下,LLM 智能体依然可能在言语中泄露角色的私有信息(例如 Merlin 暴露自己的身份),从而增加了被对手针对或陷害的风险。最后,即使在使用 CoT 方法情况下,对于人类用户而言,LLM 智能体的思维过程仍然存在一定的不透明。如图 1(c)所示,LLM 智能体在扮演坏人角色欺骗好人角色时,人类用户难以知道其真实意图。LLM 智能体内部思考的不透明使得人类用户无从知晓 LLM 智能体的真实思考过程,从而较难在造成难以挽回的后果前预先干预。面对这些挑战,现有的思维方法可能难以应对这些复杂环境。因此,研究者认为有必要重新考虑 LLM 智能体在欺骗性环境中的策略,以帮助 LLM 智能体应对欺骗、保护隐私,并提高决策透明度。针对上述挑战,研究团队提出了 ReCon(Recursive Contemplation,递归思考)框架,其旨在增强 LLM 智能体在复杂和潜在欺骗性环境中的决策能力。如图 2 所示,ReCon 提出了两个主要的构思阶段:构想思考和改进思考,并在其中综合了两个独特的思考过程:一阶视角转换和二阶视角转换。图 2 Recursive Contemplation(ReCon)方法示意图。ReCon 包含构想思考(Formulation Contemplation)和改进思考(Refinement Contemplation)两个阶段,这两阶段的思考过程分别包含了一阶视角转换和二阶视角转换(First-order /second-order perspective transition)。
构思思考是 ReCon 框架中的第一阶段,旨在生成 LLM 智能体的初始思考和发言内容。在这一阶段中,模型首先应用一种被称为「一阶视角转换」的认知过程。一阶视角转换让 LLM 智能体从自身的视角出发,对其他游戏参与者可能持有的角色和意图进行推断。具体来说,LLM 智能体会根据已有的游戏记录和角色信息,运用一阶视角转换来形成关于其他参与者角色和意图的初步假设。这些初步的角色假设不仅为 LLM 智能体提供了一个认知框架,还会被纳入到整体的思考过程中,并且这些信息不会被其他游戏参与者所知晓。这样做的目的是为了更好地保护私密信息,同时也为后续的决策和行动提供了基础。在构思思考阶段,模型依据一阶视角转换原则,对当前游戏环境和其他参与者的角色进行初步分析。接着,模型形成初始的内部思考和发言,为后续交流奠定基础。通过这一设计,研究者确保了模型输出的逻辑连贯性和一致性。改进思考是 ReCon 框架中的第二阶段,紧接着构思思考之后进行。这一阶段的核心目的是对初始思考和言论内容进行更为精细的优化和调整。在改进思考阶段,引入了「二阶视角转换」的概念。二阶视角转换要求 LLM 智能体从其他游戏参与者的视角出发,重新评估其构思思考的思考和发言内容。具体来说,在阿瓦隆游戏中,LLM 智能体会思考:「如果我按照刚才的言论内容发言,其他角色可能会如何看待我的言论?」这样的二阶视角转换为接下来的改进过程提供了基础。基于二阶视角转换的概念,LLM 智能体生成一个改进后的构思思考的思考内容和发言内容。这一过程不仅考虑了 LLM 智能体自身的初步思考,还结合了二阶视角转换中对其他参与者可能的心理状态和反应的分析。最终,LLM 智能体发表这个经过改进的发言内容,并将其加入到游戏的公开讨论记录中。为了检验 ReCon 框架在不同大语言模型上的适用性,该研究在 ChatGPT 和 Claude 两种模型上进行了实验。图 3 展示了 ReCon 的评估结果,其中图 3(a)和(b)展示了 ReCon(分别用 ChatGPT 和 Claude 实现)作为好人一方时使用 ReCon 及其各种变体的结果,而图 3(c)则描绘了 ReCon 作为坏人一方的方法的结果。可以观察到,ReCon 的四种设计(即构想思考 / 改进思考和一阶 / 二阶视角转换)都明显地提高了在各种情况下的成功率。值得注意的是,当好人一方使用 ReCon 时,一阶 / 二阶视角转换的作用比较明显;而当坏人一方使用 ReCon 时,改进思考更具影响力。在详细分析了 ReCon 及其变体的表现后,研究者遵循主流基准的评估方法,进一步利用 GPT-4 在六维度指标上进行评估。这旨在全面地衡量 ReCon 及其变体的有效性。具体地,六维度评估指标包括:信息隐藏(CCL)、逻辑一致性(LG)、团队贡献(CTR)、说服力(PRS)、信息量(INF)、创造性(CRT)。为了在实际场景中准确地量化这些评估指标,研究者使用 ChatGPT 进行了 20 场完整的阿瓦隆游戏,以收集用于多维度分析评估的测试数据。如图 4 所示,对于分配给好人一方的每个提示,研究团队使用 4 种不同的方法生成了 4 种不同的响应,总计超过 2300 个响应。随后,基于上述 6 个指标,使用 GPT-4 对不同方法在相同提示下的响应进行二分类的偏好比较。 图 4 多维度指标评估结果,数值(取值 0~1)表示两方法比较中被 GPT-4 偏好的比例图 4 显示,在所有 6 个指标上,ReCon 明显优于基线 CoT。同时,在大多数指标上,构想思考和改进思考都带来了显著的提升。然而,与 CoT 和没有构想思考的 ReCon 相比,ReCon 和没有改进思考的 ReCon 在说服力(PRS)方面的表现低于预期。研究者分析详细的游戏日志,将这一不如预期的 PRS 表现归因于构想思考。构想思考让 LLM 智能体在发言之前进行思考,从而产生更为简洁而有针对性的发言,减少了例如「我相信我们一定会战胜坏人,让我们团结起来!」这样虽然具有煽动性但缺乏深入信息和分析的发言。在深入分析了 ReCon 不同变体的表现后,研究者进一步研究了一阶和二阶视角转换,以及构想思考和改进思考在各个评估指标上的影响。图 5(a)和(b)显示,从 ReCon 中移除一阶和二阶视角转换会降低所有指标的表现。当进一步从去除改进思考和去除构想思考的 ReCon 版本中删除这两种视角转换时,几乎所有指标(除信息隐藏 CCL 外)的表现都有所下降,如图 5(c)和(d)所示。这些结果验证了一阶和二阶视角转换的有效性。然而,图 5(c)和(d)中降低的信息隐藏 CCL 分数表明,为了更好的隐藏私有信息,有必要将一阶(或二阶)视角转换与改进思考(或构想思考)相结合。这一系列的分析和图表进一步证实了 ReCon 框架在多维度评估中的优越性,特别是在包含欺骗性信息的环境中。 图 5 多维度指标上的进一步评估,数值(取值 0~1)表示两方法比较中被 GPT-4 偏好的比例研究者进一步分析了阿瓦隆游戏日志,对 ReCon 框架在欺骗性环境的有效性做了定性的解释,并讨论了当前 LLM 的一些局限性。在实验中可以发现,ReCon 非常有助于提高 LLM 智能体在欺骗性环境中隐藏私有信息的能力,从而减少 LLM 智能体被欺骗和针对的情况。研究团队从游戏日志中分析 ReCon 具体如何帮助 LLM 智能体隐藏私有信息。如图 6 (a) 所示,构想思考中提出的先思考后说话的机制可以将关于私有信息的讨论限制在思考部分,从而一定程度上避免说话部分的泄露。此外,改进思考中对初始发言的进一步修改也可以极大程度上避免私有信息的泄露。上述观察与人类为避免说错话而「三思而后行」是一致的。 图 6 (a)ReCon 如何协助隐藏私有信息的定性解释;(b)现有 LLM 在对齐上的局限在探讨 LLM 如何与复杂人类价值观对齐时,研究者发现现有的对齐方法(如 RLHF)虽然在一定程度上减少了模型产生恶意内容的可能性,但这种对齐主要集中在内容层面,而难以延伸到逻辑层面。如图 6(b)所示,研究团队观察到,虽然 GPT-4 会拒绝直接要求它生成欺骗内容的请求;但在相同的欺骗性逻辑下,如果换成阿瓦隆游戏的语境,GPT-4 则不会拒绝。这种对模型对齐的「越狱」可能会为别有用心之人使用 LLM 生成危害性内容提供了方便,因此亟需研究针对逻辑而不是内容的对齐。研究团队通过研究阿瓦隆游戏日志发现,目前 LLM 在复杂逻辑推理方面仍有所欠缺。如图 7 所示,例如当 LLM 智能体扮演 Percival 角色时,面对 Morgana 提出的一个包括 Merlin 和 Morgana 自己的队伍,该 LLM 智能体无法推断出 Morgana 的身份。相比之下,对于较高阶的人类玩家,他们会迅速识别出队伍提出者必定是 Morgana,而另一名玩家是 Merlin。因为 Merlin 的能力是知道谁是坏人一方的角色,肯定不会提出这样的队伍组合。上述案例体现出 LLM 目前还较难完成复杂的逻辑推理。从游戏日志中,研究者发现大语言模型的回应风格有时过于正式和详细,语言风格与人类在游戏中的风格有着明显的差距。如表 1 所示,虽然在合适的提示下,LLM 具备模仿人类语言风格的能力,但在阿瓦隆游戏中,在说话和思考的过程中模仿人类的语言风格可能会对其表现造成负面影响。 表 1 模仿人类语言风格会对 LLM 智能体在阿瓦隆游戏中的性能造成负面影响为了从 LLM 智能体的回应中提取关键信息,有时需要要求模型以特定的格式来回应。比如,在团队提案投票环节,模型需要用方括号强调出他们的决定,例如 [approve] 或者 [disapprove],以便把决定和分析区分开。结果发现,在合理的提示下,ChatGPT 和 Claude 可以较好地遵循这些格式要求,但 LLaMA2-70b-chat 却较难在整局游戏中一直遵循格式要求。总结来说,针对 LLM 智能体在欺骗性环境遇到的挑战,研究团队提出了 ReCon 架构以提升 LLM 智能体识别和应对欺骗的能力。定量和定性的实验证明了 ReCon 框架在处理欺骗和误导性信息的有效性。研究团队给出了 ReCon 有效性的定性解释,并进一步讨论了当前 LLM 智能体的不足,为后续研究提供了可能的方向。