编译 | KX
8 月份,Transformer 作者创业公司 Sakana AI 宣布推出 AI Scientist,声称「首个用于自动化科学研究和开放式发现的 AI 系统!」
当 Sakana AI 着手创建「AI Scientist」来处理整个科学过程时,他们并不知道他们能走多远。他们创建的系统真的能够生成有趣的假设、运行实验、评估结果并撰写论文吗?
参与「AI Scientist」研究的不列颠哥伦比亚大学的博士后研究员 Cong Lu 说,他们最终得到的是一个 AI 工具,并认为它相当于一个早期的博士生。
他说,它有一些「令人惊讶的创意」,但好的创意远远少于坏的创意。它很难连贯地写出结果,有时还会误解结果:「这与博士生对某件事起作用的原因进行大胆猜测相差无几,」Lu 说。而且,也许就像一个还不懂伦理的早期博士生一样,尽管研究人员尽了最大努力保持诚实,但它有时会在论文中编造一些东西。
最近发布在 ArXiv 的预印本,虽然讨论了局限性和道德伦理,但也包含了一些相当夸张的语言,称 AI Scientist 是「科学发现新时代的开始」,以及「第一个全自动科学发现的综合框架,使前沿大型语言模型 (LLM) 能够独立进行研究并交流他们的发现。」
AI Scientist 似乎抓住了时代精神。它正乘着 AI 用于科学的热情浪潮,但一些批评人士认为,这股浪潮不会把任何有价值的东西扔到沙滩上。
「AI for Science」的热潮
AI Scientist 是 AI for Science 大势所趋的一部分。谷歌 DeepMind 早在 2020 年就掀起了这股热潮,当时它推出的 AI 系统 AlphaFold,以前所未有的精度预测蛋白质的 3D 结构,令生物学家惊叹不已。
自生成式 AI 出现以来,越来越多的大公司参与其中。索尼 AI 高级研究员 Tarek Besold 负责该公司的 AI 用于科学发现项目,他说,AI for science 是「AI 社区可以团结起来,努力推进底层技术的目标,但更重要的是,它还可以帮助人类解决我们这个时代最紧迫的一些问题。」
然而,这场「运动」也有批评者。2023 年,谷歌 DeepMind 发表论文,声称发现了 220 万种新晶体结构,相当于近 800 年的知识,不久之后,两位材料科学家对所提结构进行了随机抽样分析,并表示他们发现「同时满足新颖性、可信度和实用性的化合物证据不足」。换句话说,AI 可以快速生成大量结果,但这些结果实际上可能没有用。
AI Scientist 的工作方式
在 AI Scientist 的案例中,研究人员仅在计算机科学上测试了他们的系统,要求它研究与大型语言模型相关的主题,这些模型为 ChatGPT 等聊天机器人、扩散模型以及 AI Scientist 本身提供支持。
AI Scientist 的第一步是假设生成。给定正在研究的模型的代码,它可以自由地为可以运行以提高模型性能的实验产生想法,并根据有趣性、新颖性和可行性对每个想法进行评分。它可以在此步骤进行迭代,对得分最高的想法产生变体。然后它在 Semantic Scholar 中运行检查,以查看其提案是否与现有工作过于相似。
接下来,它使用名为 Aider 的编码助手来运行其代码,并以实验日志的形式记录结果。它可以使用这些结果来为后续实验产生想法。
下一步是让 AI Scientist 使用基于会议指南的模板将其结果写成一篇论文。但是,Lu 说,该系统很难写出一篇连贯的九页论文来解释其结果——「写作阶段可能和实验阶段一样难以做好,」他说。因此,研究人员将这个过程分解成许多步骤:AI Scientist 一次写一个部分,并将每个部分与其他部分进行比较,以剔除重复和矛盾的信息。它还会再次通过 Semantic Scholar 查找引用并建立参考书目。
但接下来还有幻觉问题。Lu 说,尽管他们指示 AI Scientist 只使用实验日志中的数字,「但有时它还是会不听话。」Lu 说,模型不听话的概率不到 10%,但「我们认为 10% 可能接受不了。」他说他们正在研究一种解决方案,比如指示系统将论文中的每个数字链接到它在实验日志中出现的位置。但该系统也犯了不太明显的推理和理解错误,这似乎更难修复。
你可能没有想到的是,AI Scientist 甚至包含一个同行评审模块来评估它所写的论文。「我们一直都知道我们想要某种自动化的 [评估],这样我们就不必花几个小时仔细阅读所有的手稿了,」Lu 说。虽然他指出「我们总是担心自己在给自己的作业打分」,但他表示,他们的评估员模仿了领先的 AI 会议 NeurIPS 的评审员指南,发现它总体上比人类评估员更严格。从理论上讲,同行评审功能可用于指导下一轮实验。
对 AI Scientist 的批评
虽然研究人员将他们的 AI Scientist 限制在机器学习实验中,但 Lu 表示,该团队与其他领域的科学家进行了一些有趣的对话。他说,从理论上讲,AI Scientist 可以在任何可以进行模拟实验的领域提供帮助。「一些生物学家表示,他们可以在计算机模拟中做很多事情,」他还提到量子计算和材料科学领域。
一些批评 AI for science 研究的人可能会对这种普遍的乐观情绪提出质疑。今年早些时候,加州大学伯克利分校计算生物学教授 Jennifer Listgarten 在《Nature Biotechnology》上发表了一篇论文,认为 AI 不会在多个科学领域取得突破。她写道,与自然语言处理和计算机视觉等 AI 领域不同,大多数科学领域没有训练模型所需的大量公开数据。
另外两位研究科学实践的研究人员,耶鲁大学的人类学家 Lisa Messeri 和普林斯顿大学的心理学家 M.J. Crockett,今年在《Nature》杂志上发表的一篇论文,试图打破围绕 AI for science 的炒作。
当被问及对 AI Scientist 的评论时,两人重申了他们对将「AI 产品视为自主研究人员」的担忧。他们认为,这样做可能会将研究范围缩小到适合 AI 的问题,并失去推动真正创新的多元化视角。「虽然 AI Scientist 承诺的生产力对某些人来说可能听起来很有吸引力,但发表论文和产生知识并不相同,忘记这一区别可能会导致我们产出更多,而理解更少。」
但其他人认为 AI Scientist 是朝着正确方向迈出的一步。索尼 AI 的 Besold 说,他认为这是一个很好的例子,说明当今的 AI 在应用于正确的领域和任务时如何支持科学研究。他说:「这可能成为少数几个早期原型之一,可以帮助人们概念化当 AI 应用于科学发现领域时会发生什么。」
AI Scientist 的下一步计划
Lu 表示,该团队计划继续开发 AI Scientist,他表示,在他们寻求提高其性能的过程中,有很多唾手可得的成果。至于这些 AI 工具最终是否会在科学过程中发挥重要作用,Lu 说:「我认为时间会证明这些模型有什么用。」他说,在研究项目的早期阶段,当研究者试图了解许多可能的研究方向时,这些工具可能是有用的,尽管批评者补充说,我们必须等待未来的研究,才能知道这些工具是否真的足够全面和公正,能够有所帮助。
或者,Lu 说,如果这些模型可以改进到与「一名扎实的三年级博士生」的表现相匹配的程度,到那时,任何人都可以成为教授并开展研究计划,Lu 说。「这是我期待的令人兴奋的前景。」
参考内容:https://spectrum.ieee.org/ai-for-science-2