编辑丨coisini
假设验证在科学发现、决策制定和信息获取中具有基础作用。无论是在生物学、经济学还是政策制定中,研究者往往依赖于检验假设来指导其结论。传统上,这一过程涉及设计实验、收集数据并分析结果以确定假设的有效性。
然而,随着大型语言模型(LLMs)的出现,AI 生成的假设数量急剧增加。虽然这些假设提供了新颖的见解,但其合理性差异很大,使得手动验证变得不切实际。
传统的假设验证方法通常依赖人工干预来设计证伪实验并解释结果,并且无法确保结论在统计上是可靠的。而许多由 AI 驱动的验证工具未能通过严格的证伪实验来系统地挑战假设,从而增加了误导性发现的风险。因此,科研领域需要一个可扩展且统计上可靠的解决方案来有效自动化假设验证过程。
最近,来自斯坦福大学和哈佛大学的研究者提出了 POPPER,这是一个将严格的统计原则与基于 LLM 的智能体相结合的自动化假设验证框架。

论文地址:https://arxiv.org/pdf/2502.09858
POPPER 概览
POPPER 系统地应用了卡尔・波普尔的证伪原则,强调证伪而非证明假设。

图示:POPPER示意图。(来源:论文)
POPPER 采用了两个专门的 AI 驱动智能体:
实验设计智能体:负责制定证伪实验
实验执行智能体:负责实施实验
每个假设被分解为具体的、可测试的子假设,并接受证伪实验的检验。通过不断优化验证过程并整合证据,POPPER 确保只有得到充分支持的假设才能被推进。与传统方法不同,POPPER 根据先前的结果动态调整其方法,在保持统计完整性的同时显著提高了效率。
POPPER 通过一个迭代过程运作,其中证伪实验依次检验假设。实验设计智能体通过识别给定假设的可测量影响来生成实验方案。实验执行智能体随后使用统计方法、模拟和现实世界的数据收集来执行实验。


图示:实验设计与实验执行样例。(来源:论文)
POPPER 方法的关键在于其能够严格控制 I 型错误率,确保最小化假阳性结果。与孤立处理 p 值的传统方法不同,POPPER 引入了一个顺序测试框架,其中单个 p 值被转换为 e 值 —— 一种允许在保持错误控制的同时持续积累证据的统计度量。这种自适应方法使系统能够动态优化其假设,减小得出错误结论的可能性。
POPPER 的灵活性使其能够与现有数据集一起工作,进行新的模拟,或与实时数据源交互,使其在跨学科领域中具有高度通用性。
实验评估
研究团队从 I 型错误控制、功效提升、专家用户研究、消融实验、人工标注和失败分析等方面对 POPPER 进行了详细评估。

图示:研究团队设计了与生物学相关的证伪实验。(来源:论文)
POPPER 在生物学、社会学和经济学等领域,针对 86 个经过验证的假设进行了测试,结果显示在所有数据集中,I 型错误率均低于 0.10。

图示:基线、变体及POPPER的I类错误率/功效对比。(来源:论文)
与现有验证方法相比,POPPER 在统计功效方面的表现显著提升,优于费舍尔组合检验和似然比检验等标准技术。
研究团队还招募了九位计算生物学家和生物信息学家在 TargetVal-IL2 上进行假设验证。如下图所示,POPPER 的 I 型错误率和功效与人类参与者非常接近。值得注意的是,POPPER 完成任务的速度快了 9.7 倍,生成代码行数多了 3.6 倍,执行的统计检验多了 2.5 倍,突显了其效率优势。

图示:与人类专家比较实验。(来源:论文)
通过利用其自适应测试框架,POPPER 将复杂假设验证所需时间减少为 1/10,其可扩展性和效率可见一斑。
感兴趣的读者可以阅读论文原文,了解更多研究内容。
相关报道:https://www.marktechpost.com/2025/02/20/stanford-researchers-developed-popper-an-agentic-ai-framework-that-automates-hypothesis-validation-with-rigorous-statistical-control-reducing-errors-and-accelerating-scientific-discovery-by-10x/