AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文题目:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions 论文地址:https://arxiv.org/abs/2408.02544 代码仓库:https://github.com/xbmxb/EnvDistraction
任务定义。考虑 GUI Agent A 为了完成特定目标 g,与操作系统环境 Env 交互中的任一步 t, Agent 根据其对环境状态 的感知在操作系统上执行动作。然而,操作系统环境天然包含质量参差不齐、来源各异的复杂信息,我们对其形式化地分为两部分:对完成目标有用或必要的内容,,指示着与用户指令无关的目标的干扰性内容,。GUI Agent 必须使用 来执行忠实的操作,同时避免被 分散注意力并输出不相关的操作。同时,t 时刻的操作空间被状态 决定,相应地定义为三种,最佳的动作,受到干扰的动作 ,和其他(错误)的动作。我们关注智能体对下一步动作的预测是否匹配最佳的动作或受到干扰的动作,或是有效操作空间之外的动作。
模拟数据。根据任务的定义,在不失一般性的情况下模拟任务并构建模拟数据集。每个样本都是一个三元组 (g,s,A),分别是目标、屏幕截图和有效动作空间标注。模拟数据的关键在于构建屏幕截图,使其包含 和 ,即保证屏幕内允许正确的忠实性操作,且存在自然的干扰。研究团队考虑了四种常见场景,即弹框、搜索、推荐和聊天,形成四个子集,针对用户目标、屏幕布局和干扰内容采用组合策略。例如,对于弹框场景,他们构造诱导用户同意去做另一件事情的弹框,并在框内给出拒绝和接受两种动作,如果智能体选择接受型动作,就被看作失去了忠实性。搜索和推荐场景都是在真实的数据内插入伪造的样例,例如相关的折扣物品和推荐的软件。聊天场景较为复杂,研究团队在聊天界面中对方发来的消息内加入干扰内容,如果智能体遵从了这些干扰则被视为不忠实的动作。研究团队对每个子集设计了具体的提示流程,利用 GPT-4 和外部的检索候选数据来完成构造,各子集示例如图 4 所示。
工作模式。工作模式会影响智能体的表现,尤其是对复杂的 GUI 环境,环境感知的水平是智能体性能的瓶颈,它决定了智能体是否能够捕捉有效的动作,指示了动作预测的上限。他们实现了三个具有不同环境感知级别的工作模式,即隐式感知、部分感知和最佳感知。(1)隐式感知即直接对智能体提出要求,输入仅为指令和屏幕,不辅助环境感知 (Direct prompt)。(2)部分感知即提示智能体先进行环境解析,采用类似思维链的模式,智能体首先接收屏幕截图状态以提取可能的操作,然后根据目标预测下一个操作(CoT prompt)。(3)最佳感知即直接提供该屏幕的操作空间给智能体 (w/ Action annotation)。本质上,不同的工作模式意味着两个变化:潜在操作的信息暴露给智能体,信息从视觉通道融合到文本通道中。
多模态环境是否会干扰 GUI Agent 的目标?在有风险的环境中,多模态代理容易受到干扰,这会导致他们放弃目标并做出不忠实的行为。在研究团队的四种场景中,每个模型都会产生偏离原始目标的行为,这降低了行动的正确率。强大的 API 模型(GPT-4o 的 9.09%)和专家模型(SeeClick 的 6.84%)比通用开源模型更忠实。 忠实性和有用性 (helpfulness) 之间的关系是什么?这分为两种情况。首先,具有强大功能的模型既可以提供正确动作,又可以保持忠实(GPT-4o、GPT-4v 和 Claude)。它们表现出较低的 分数,以及相对较高的 和较低的 。然而,感知能力更强但忠实度不足会导致更容易受到干扰,有用性降低。例如,与开源模型相比,GLM-4v 表现出更高的 和低得多的 。因此,忠实度和有用性并不相互排斥,而是可以同时增强,并且为了匹配强大的模型的能力,增强忠实度就显得更为重要。 辅助多模态环境感知是否有助于缓解不忠实?通过实施不同的工作模式,视觉信息被集成到文本通道中以增强环境感知。然而,结果表明,GUI 感知的文本增强实际上会增加干扰,干扰动作的增加甚至会超过其带来的好处。CoT 模式作为一种自我引导的文本增强,可以大大减轻感知负担,但也会增加干扰。因此,即使感知这一性能瓶颈被增强,忠实的脆弱性依旧存在,甚至更具风险。因此,跨文本和视觉模式(如 OCR)的信息融合必须更加谨慎。