Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

打通智能体「自我进化」全流程!复旦推出通用智能体平台AgentGym

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

AI通用智能体的自我进化能力,并非遥不可及。

LLM-based Agent,已经不再需要人类监督者的帮助,开始实现「自我进化」!

这个智能体在学习了专家轨迹以后,获得了基础的通用能力,能够在更广泛、更真实的未知环境与任务上进行探索和学习,在外部的反馈下不断提升自己。

最近,复旦大学语言与视觉团队推出的 AgentGym 平台,打通了大语言模型智能体「数据采样、训练微调、自我进化、能力评测」全流程。基于该平台提出的 AgentEvol 算法,首次探索了通用智能体的自我进化能力,并在多项智能体任务上表现非凡,与 GPT-4、Claude 等 SOTA 模型比肩。

图片

  • 论文链接:https://arxiv.org/abs/2406.04151
  • AgentGym代码仓库:https://github.com/WooooDyy/AgentGym

研究背景

开发一个能够解决和适应复杂工作的多任务通用智能体,一直是人工智能社区长久以来的重要目标。

类似于人类的学习过程,通用智能体首先通过模仿,开始学习最基础的知识和技能。

随着基础能力的掌握,我们不仅期望智能体可以通过与不同环境的交互,持续学习和适应许多先前未见的任务,还能从自身经验以及外部反馈中汲取丰富的智慧,发展出一定程度的泛化能力(图1)。

图片

图1:基础通用智能体实现「自我进化」的示意图。该智能体首先在人类监督下进行行为克隆,随后在不同的外部环境和任务中进行探索和学习,以实现自我进化。

语言模型凭借其卓越的通用能力,被视为构建此类智能体的重要基础之一。目前的研究领域正沿着两个主要方向进行探索,以推动智能体技术的进一步发展。

  • 依赖于人类监督的行为克隆(Behavior Cloning)方法,需要智能体逐步模仿专家提供的轨迹数据。这种方法虽然有效,但由于标注资源的限制,难以扩展对环境的探索也较为有限,容易遇到性能或泛化性的瓶颈。
  • 允许智能体根据环境反馈,不断提高能力的自我改进(Self Improving)方法,减少了对人类监督的依赖,同时丰富对环境的探索深度。然而,它们通常在特定任务的孤立环境中进行训练,得到一批无法有效泛化的专家智能体。

面对上述挑战,作者首次探讨了一个具备基础能力的通用智能体——在多种环境和任务中——自我进化的潜力。

为了实现这一研究目标,作者确定了推动智能体自我进化的「三大关键支柱」,这些支柱是研究的核心要素。

  • 多样化的环境和任务,允许智能体动态且全面地进行交互、训练,而不是被局限于某个孤立的环境。
  • 一个适当大小的轨迹数据集,帮助智能体配备基本的指令遵循能力和基础任务知识。
  • 一种有效且可扩展的进化算法,激发智能体在不同难度环境中的泛化能力。

图片

图2:AgentGym 平台示意图。平台共涵盖了 14 个跨越不同类别的环境,每个环境都作为 HTTP 服务部署。客户端为智能体提供封装好的统一接口,便于与环境互动。通过 AgentEvol 方法,作者探索了智能体在不同环境和任务中的自我进化。此外,平台提供了测试集 AgentEval 对智能体进行全面的能力评估。

围绕这三大支柱,作者的研究工作体现在以下几个方面:

  • 「AgentGym」,一个包含 14 种具体环境,89 种具体任务类型的交互平台(图2),为大语言模型智能体训练提供支持。该平台基于 HTTP 服务,为不同环境提供了一个统一的 API 接口,支持轨迹采样、多轮交互、在线评估和实时反馈。
  • 「AgentEval」,一个具有挑战性的智能体测试基准。「AgentTraj」和「AgentTraj-L」,通过指令增强和众包 / SOTA 模型标注构建的专家轨迹数据集。经过格式统一和数据过滤,帮助智能体学习基本的复杂任务解决能力。
  • 「AgentEvol」,一种激发智能体跨环境自我进化的全新算法。该算法的动机在于,期望智能体在面对先前未见的任务和指令时进行自主探索,从新的经验中进行学习与优化。

AgentGym 平台,是一个全新的,支持大语言模型智能体轨迹采样、自我进化、能力评测的框架,特点是提供多样、实时、并发和统一格式的反馈。旨在帮助人工智能社区更便利地探索具备通用能力的 LLM-based 智能体。

AgentGym——交互式训练与评测一体化的智能体平台

AgentGym 集成了多种环境、丰富的轨迹数据和全面的基准测试。它通过统一的环境操作接口,简化了环境配置过程。具体而言,AgentGym 拥有以下特点:

多样化的环境:

AgentGym 包含 14 种环境和 89 项任务,涵盖了网页导航、文字游戏、具身控制、工具使用和代码等类别。无论是致力于构建 Task-specific Agent,还是通用型的 Generally-capable Agent,AgentGym 框架均能提供对应的支持。

其中,每个环境独立部署,避免了不同环境间的依赖冲突,确保了平台的可扩展性。例如,WebShop 环境,一个用于网络购物任务的交互式平台,仅通过一行命令,即可轻松完成部署。

数据驱动:

AgentGym 的轨迹数据采用了统一的 ReAct 格式,该格式通过「Thought-Action」对将推理步骤和行动序列结合,图 2左上方提供了一个轨迹数据的示例。

平台通过广泛收集和增强指令,构建了具有 20509 条指令的集合,并从中挑选出 1160 条具有多样性的指令,构建了基准测试集 AgentEval,用于全面评估基于 LLM 的智能体。

同时,作者使用 GPT-4-Turbo 和众包标注收集轨迹数据,并基于奖励或正确性严格筛选,构建了 6130 条高质量轨迹的集合 AgentTraj。为了展现行为克隆方法的性能潜力,研究者进一步扩展,得到包含 14485 条轨迹的 AgentTraj-L。

图片

                               图3:AgentGym 平台 14 种环境的统计数据(涵盖任务类型数量、指令集规模、评估集规模、轨迹集规模及平均交互轮数)。

模块化的架构与高效的 Pipeline:

AgentGym 平台采用模块化设计,开发者可以轻松添加或更改环境。环境被部署在不同的服务器(EnvServers)上,通过 HTTP 服务实现灵活、高效的交互。客户端(EnvClients)封装了与环境交互所需的函数,提供了相应的操作接口。

而核心组件 AgentController 作为智能体和环境的中间媒介,提供了优化智能体策略的训练器(Trainer),以及支持多环境的性能评估器(Evaluator)。统一的操作接口简化了智能体与环境的交互,使用户能够专注于算法优化和智能体训练。

图片

                                 图4:AgentGym 平台架构概览。

独特优势:

与其他框架相比,AgentGym 的优势在于它不仅提供了广泛的环境集合,还通过交互平台为智能体提供实时的环境反馈,支持智能体的训练与评估。同时,AgentGym 支持在多个环境中实现智能体的「全面进化」,这极大地增强了智能体的泛化能力,使其在不同任务和环境中都能表现出色。

图片

                               图5:AgentGym 与其他代理框架的比较。

AgentEvol——通用智能体进化算法 

基于 AgentGym 套件,研究者们可以容易地对智能体进行采样、训练与评测。而复旦语言与视觉团队为了探究具有通用智能体的在「自我进化」的潜力,提出了 AgentEvol 算法(图6),帮助智能体在多环境、多任务下实现了各项能力的提升。这一算法的核心思想是让智能体通过探索和学习来提升自己的性能,特别是在面对之前未见过的任务和指令时。

图片

                                图6:AgentEvol 算法框架

AgentEvol 首先基于收集到的 AgentTraj 轨迹数据集,通过「行为克隆(behavioral cloning)」的形式训练一个「基础通用智能体(base generally-capable agent)」,使其具备基本的指令遵循能力和必要的先验知识。在这个过程中,智能体一步一步地模仿专家的轨迹,包括思考过程(thought)和行动(action)。

接着,这一基础通用智能体与不同的环境交互,完成自我进化。它面对来自不同环境的、更多样化的指令与查询(Instructions and queries),逐渐提升自己完成各项任务的能力。

这一过程受到机器学习中 RL as Inference 方法的启发,它将交互强化学习视为一个概率推断问题(具体推导与解释见原文)。这种方法与传统的强化学习方法不同,它不是直接寻找最大化期望回报的轨迹,而是首先定义一个关于轨迹的最优策略分布,然后通过迭代过程来优化这个分布。

具体而言,该过程包括两个交替进行的步骤:

  • 探索步骤(Exploration Step)」:在这一步骤中,智能体在当前策略下与环境进行交互,生成新的轨迹并评估其奖励,形成一个估计的最优策略分布。具体而言,智能体与多个环境进行交互,生成一系列的行为轨迹。每条轨迹都是智能体根据当前策略与环境互动的产物,包括智能体的思考,智能体的行为,以及环境的观测。然后,环境端会根据轨迹与任务目标的匹配程度,为每条轨迹给出奖励信号。
  • 学习步骤(Learning Step)」:在这一步骤中,智能体根据估计的最优策略分布更新参数,使其更加接近于最优策略。具体而言,智能体利用在探索步骤中收集到的轨迹与奖励数据,通过一个基于轨迹奖励加权的优化目标函数来优化自己。注意,在学习步骤中,为了减少过拟合,作者优化的总是「基础通用智能体」,而不是上一轮优化得到的智能体。

通过交替探索和学习步骤,AgentEvol 算法逐步优化智能体,显著提升其在多环境下的能力,实现「自我进化」的目标。

实验介绍

任务概述:

本研究通过 AgentGym 框架对智能体进行了一系列的跨环境探索和进化实验。实验旨在评估基础智能体在多样化环境中进行自我探索和进化的能力。为此,作者采用更广泛的指令集来扩展智能体的探索空间。

主要结果:

在 11 个不同环境中,使用 AgentTraj 数据集训练的智能体图片展示了良好的基础交互能力。

进一步,通过在更大的AgentTraj-L 数据集上实施行为克隆,智能体 图片 实现了显著的性能提升。

而本文提出的 AgentEvol 方法,尽管在初始阶段仅基于有限的专家数据,但通过交替的探索和学习步骤,智能体能够在未见过的探索集上做出正确决策,实现自我进化。在多个智能体任务上,AgentEvol 方法超越了 图片和其他 SOTA 模型。

这一发现揭示了智能体具有适应和解决更复杂任务的潜力,为开发更高级的通用智能体提供了坚实的基础。

图片

                              图7:多任务环境下各种模型和智能体的性能对比

分析实验:

该团队还从四个角度展开了一系列的消融实验:(1) 数据合并策略;(2) 进化迭代次数;(3) 探索范围;(4) 采样次数。

实验发现,将智能体当前生成的轨迹与初始专家轨迹集合并,能带来更稳定的性能提升。相应地,利用前一迭代的探索轨迹,可能导致过拟合,出现性能的波动。

随着进化过程中迭代次数 M 增加,性能提升,但最终会趋于稳定和收敛

图片

                             图8:数据合并策略和迭代次数的消融实验

在 AgentEvol 探索过程中,通过对每个指令执行采样,生成多样化的轨迹促进了智能体的学习。

而将智能体的探索范围限制在已知的指令集内,也就是进行有限空间的探索,可能会限制 AgentEvol 的性能进一步提升。

图片

                               图9:采样数目与探索范围的消融实验

此外,研究者还在不同的基座模型上进行实验。结果表明, AgentEvol 方法在不同规模的模型上均表现出色。

图片

                                   图10:不同基座模型上的性能比较

文章还探讨了在通用智能体的进化过程中,成功与失败的经验轨迹是否都能发挥作用

实验采用直接偏好优化 DPO (Direct Preference Optimization) 方法,基于探索过程中的「成功-失败」轨迹进行训练。结果表明,智能体能够在多任务的场景下,从错误经验中学习,但其整体性能仍然不如 AgentEvol 方法。

图片

                             图11:基于成功和失败轨迹的 DPO 训练

复旦大学自然语言处理实验室,是由复旦大学首席教授吴立德先生创建,是我国最早开展自然语言处理信息检索研究的实验室之一。在国家自然科学基金、国家863/973/重点研发计划、省部委基金的支持下,发表了大量高水平国际期刊和会议论文。实验室在学术带头人黄萱菁教授的带领下,围绕大模型前沿方向,在语言大模型、多模态大模型、大模型对齐、智能体等方面开展系统深入的研究,产生了MOSS、眸思等一系列有较大学术影响的工作,并与国内外科技领军企业建立密切的合作关系。

复旦大学视觉与学习实验室由姜育刚教授创立,现有教师7人,在读硕博士研究生80余人,已毕业研究生30余人。实验室主要从事计算机视觉和多模态人工智能理论与应用的研究,旨在研发准确、快速、可扩展和值得信赖的 AI 算法,让机器具备像人一样的学习、感知和推理的能力。实验室承担了科技创新2030—“新一代人工智能”重大项目、国家自然科学基金重点基金、国家重点研发计划课题、上海市科技创新行动计划等国家和地方的重要科研项目,以及华为腾讯、百度等企业的技术攻关需求。

产业AI通用智能体AgentGym
1
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~