编辑 | ScienceAI
人工智能的下一个前沿,不仅是语言、图像,而是科学发现本身。
近年来,人工智能(AI)已经在自然语言处理(NLP)、计算机视觉(CV)等领域取得巨大成功。但 AI 是否能够帮助科学家发现新的科学理论?
在 ICLR 2025 接收的一篇论文《MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses》提出了一个令人兴奋的问题:
大模型(LLMs)能否在仅依赖化学研究背景信息的情况下,自动发现新的、有效的化学科学假设?
这项研究发现 LLM 可以自主发现新颖(novel)且可行(valid)的科学假设,甚至可以重新发现那些已经发表在 Nature, Science 上的顶级化学科学假设。
这项研究通过划分使用的 LLM 的 pretrain data 的截止时间,与 Nature, Science 上文章的 online 时间确保这种重新发现不是由于数据污染(data contamination),而是由于 LLM 本身的能力。
这项研究不仅提供了关于科学假设形成的数学建模,还提出了 Agentic AI for scientific discovery 的 framework,让 LLM 能够自动生成并筛选科学假设,为 AI 在科学研究中的应用提供了新思路。
MOOSE-Chem 研究的核心假设是:
化学研究假设 h 不是凭空创造的,而是由研究背景 b 和若干研究灵感 i 组合而成的。
研究团队通过认知科学、论文分析和数学建模,系统性地验证了这一假设的合理性,并建立了数学推导,形成 AI 可执行的科学发现框架。
MOOSE-Chem 核心假设的提出
(1) 认知科学的启发
创造力研究表明,创新通常来自已有知识的重新组合,这一点可以追溯到:
例如:
这些理论表明,化学研究假设很可能是由背景知识(b)+ 研究灵感(i) 组合产生的。
(2) 顶级化学论文的分析
研究团队通过利用核心假设,链式法则,和引入马尔科夫性质,得到 P( h | b )的一个约等式。
最终研究团队得到 。其中,I代表所有的(化学)科学文献。该约等式将复杂的难以建模的 P( h | b )转换成了一系列难度显著降低的可以建模的小项的乘积。
MOOSE-Chem 框架详解:AI 如何进行自动科学发现?

1. 文献检索(Literature Retrieval)——找到潜在研究灵感:
MOOSE-Chem 在这一过程中使用了大语言模型(LLMs)结合信息检索的方法,帮助 AI 从大量化学论文中筛选出可能的研究灵感。
方法:
基于 LLM 的语义检索
2. 假设生成(Hypothesis Generation)——从背景和灵感构造研究假设:
有了研究灵感后,MOOSE-Chem 需要根据背景信息和灵感,构造新的科学假设。这个过程类似于科学家在头脑风暴时结合已有知识提出研究方向。
方法:
(1)基于 LLM 的 Prompt 生成

(2)进化优化(Evolutionary Optimization)
仅靠 LLM 直接生成假设并不能保证其高质量,因此 MOOSE-Chem 进一步采用进化算法(Evolutionary Algorithm)优化假设。这一过程包含三个关键步骤:
3. 假设排序(Hypothesis Ranking)——筛选最优科学假设
MOOSE-Chem 生成了多个可能的研究假设,但并非所有假设都合理。因此,MOOSE-Chem 需要对生成的假设进行评估,并筛选出最优的科学假设。
方法:
基于 GPT-4o 的评分
主要实验结果
1、LLM 能够成功识别与研究背景相关但未知的启发性论文
2、LLM 能够基于已知知识推理出高质量的新知识
3、LLM 能够有效地对假设进行排名
启发匹配越多,排名越高
匹配评分越高,排名越高
最终发现
1、MOOSE-Chem 生成的假设可以在不访问真实假设的情况下,覆盖论文的核心创新点。
在51篇论文的评测中,近 40% 的实验生成假设与真实假设高度相似。
专家评估显示,在模拟现实科学研究环境(300 篇论文库)下,MOOSE-Chem 仍能生成接近真实论文的假设。
2、多步启发和变异/重组策略有效提升了假设质量。
3、在实际应用中,MOOSE-Chem 可作为科研助理协助研究人员提出高质量假设。