Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AMD与约翰霍普金斯大学联手:AI实验室copilot自动化科研,成本节约84%!

图片

编辑 | 2049

科学研究,尤其是机器学习领域的研究,往往需要大量的时间和资源投入,从最初的构思到最终的结果产出,每一步都充满了挑战。

近年来,大型语言模型(Large Language Models,LLMs)在自然语言处理和代码生成方面取得了显著进展,这为自动化科学研究提供了新的可能性。然而,现有的自动化研究工具通常只能处理单个环节,如文献综述或实验设计,无法实现全流程的自动化。

针对这一问题,来自 AMD 和约翰霍普金斯大学的研究团队提出了一种名为 Agent Laboratory 的创新框架。该框架利用 LLM 作为研究助手,能够从文献综述到实验设计和报告撰写全流程自动化,显著加速科学研究过程。

该框架不仅支持全自动模式,还创新性地提供了 co-pilot 协作模式,允许研究人员在关键节点提供反馈和指导,实现人机协同研究。

该研究以「Agent Laboratory: Using LLM Agents as Research Assistants」为题,于 2025 年 1 月 8 日发布在 arXiv 预印本平台。

图片

研究背景

现代 AI 研究正面临着效率与创新的双重挑战。研究人员往往需要在有限的时间和资源约束下,权衡和筛选最具潜力的研究方向。

现有的自动化研究工具存在明显局限:ResearchAgent 虽然能够生成研究想法和实验设计,但缺乏实际执行能力;The AI Scientist 虽然可以生成和执行代码,但其生成的研究论文质量有待提高。更重要的是,这些系统都采用完全自动化的方式,无法有效整合人类研究者的专业判断和创造性思维。

技术创新

Agent Laboratory 创新地提出了一个三阶段的研究辅助框架。首先是文献综述阶段,系统会根据研究者提供的主题自动检索和分析相关文献。其次是实验阶段,包括实验规划、数据准备和运行实验三个环节。最后是报告撰写阶段,系统能够基于实验结果生成规范的研究论文。

系统的核心是一个多智能体协作框架,包括多个专业化的语言模型代理:PhD 代理负责文献综述和研究规划,Postdoc 代理负责实验设计和结果解释,ML 工程师代理专注于代码实现,Professor 代理则负责论文评审和质量控制。

图片

图示:Agent Laboratory 整体框架。(来源:论文)

系统的另一个核心创新是 mle-solver 模块,它通过五个关键组件实现代码的自动生成和优化:

  • Command Execution:通过 REPLACE 和 EDIT 操作生成和修改代码
  • Code Execution:执行代码并验证其正确性
  • Program Scoring:使用 LLM reward model 评估代码质量
  • Self Reflection:基于执行结果进行自我改进
  • Performance Stabilization:通过多样性采样确保代码质量稳定

论文生成方面,系统采用了创新的 paper-solver 模块,集成了自动化审稿功能。该功能在 500 篇 ICLR 2022 论文的评估中,达到了与人类审稿人相当的准确率(65% 对比 66%),在 F1 分数上甚至超过了人类表现(0.57 对比 0.49)。

图片

图示:Agent Laboratory 工作流程。(来源:论文)

实验验证

研究团队通过多维度实验评估了 Agent Laboratory 的性能。在模型对比中,o1-preview 在有用性方面表现最佳,评分达到 4.4/5;在报告质量方面得分为 3.4/5,与 o1-mini(3.2/5)相近;o1-mini 在实验质量方面领先,得分为 3.2/5;而 gpt-4o 虽然在各项指标上表现较弱,但其运行成本显著降低,每篇论文仅需 2.33 美元,比现有自动化研究方法节省 84%。

特别值得注意的是,研究发现人类评估和自动化评估存在显著差异。自动评估给出的平均分数为 6.1/10,而人类评估仅为 3.8/10,这一发现强调了在评估系统性能时需要更多地依靠人类专家判断。在 MLE-Bench 部分挑战任务中,系统展现了优异的实践能力,获得了 4 枚奖牌(2 金 1 银 1 铜)。

图片

图示:实验结果。(来源:论文)

结语

Agent Laboratory 的创新意义在于重新定义了 AI 辅助研究的范式。通过灵活的自动化程度和人机协作模式,系统既能提供高效的研究支持,又能保持人类研究者的创造性主导地位。

虽然当前系统在自动评估准确性和论文质量方面仍有改进空间,但其显著的成本优势和实用性已经证明了其在加速科学研究方面的潜力。随着系统的进一步完善,它有望成为推动科学发现加速的重要工具。

论文链接:https://arxiv.org/abs/2501.04227


理论AI for Science机器学习自动化
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

AMD机构

超威半导体(中国)有限公司专门为计算机、通信和消费电子行业设计和制造各种创新的微处理器(CPU、GPU、主板芯片组、电视卡芯片等),以及提供闪存和低功率处理器解决方案,公司成立于1969年。AMD致力为技术用户——从企业、政府机构到个人消费者——提供基于标准的、以客户为中心的解决方案。

https://www.amd.com/zh-hans
语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

论文生成技术

论文生成是指使用 AI 技术生成符合学术出版标准的造假论文。

推荐文章
暂无评论
暂无评论~