作者 | 「深度原理」陆婕妤
编辑 | ScienceAI
现代科学研究中,化学空间的探索是化学发现和材料科学的核心挑战之一。过渡金属配合物(TMCs)的设计中,由金属和配体组成的庞大化学空间为多目标优化的搜索带来了难度。
为了解决这一问题,来自「深度原理」 (Deep Principle) 和康奈尔大学的研究者们开发了一种名为 LLM-EO(Large Language Model for Evolutionary Optimization)的新型工作流程算法,释放大型语言模型(LLM)的生成和预测潜能,显著提高了化学空间探索的效率。
相关研究以「Generative Design of Functional Metal Complexes Utilizing the Internal Knowledge of Large Language Models」为题,发布在预印平台 arXiv 上。
LLM-EO 的工作原理
LLM-EO 是一种创新的优化框架,结合了大型语言模型的生成能力与进化优化算法,专为在化学空间中进行高效的优化设计。
其工作原理依赖于 LLM 在预训练过程中积累的丰富化学知识和生成能力。在每次迭代中,LLM 根据用自然语言描述的设计目标和约束条件生成新的过渡金属配合物(TMCs)。这些生成的 TMCs 被整合到提示中,作为下一次迭代的知识基础,从而完成进化优化。
与传统的进化优化算法(如遗传算法)相比,LLM-EO 具有三个关键优势:
1.灵活的目标控制:LLM-EO 允许使用自然语言来表达更灵活和细致的优化目标,而不需要复杂的数学公式。这种灵活性使得研究人员能够快速调整优化策略,以适应不同的研究需求。
2.优化效率的提升:LLM 中嵌入的丰富化学知识和其从少量样本中学习的能力显著提高了优化效率。通过利用LLM的强大推理能力,LLM-EO 能够在较少的实验次数下获得更优的结果。
3.新化学结构的生成设计:LLM 的生成能力使 LLM-EO 不仅能高效地搜索预定义的化学空间,还能创造性地生成新的 TMCs。LLM-EO 能够提出具有创新性的化学结构,突破传统设计的限制。
实验结果与性能分析
LLM-EO 在化学空间中进行高效探索
LLM 本身具有丰富的化学知识。Claude-3.5-sonnet 和 o1-preview 模型成功识别出具有大 HOMO-LUMO 能隙的化合物,其表现优于传统基准算法。同时,它们在有效性和独特性指标上也显示出良好的表现。
值得注意的是,这种优势在提供少量初始 TMCs 的情况下便能显现,展示了这两个模型在复杂化学空间中识别高潜力化合物的能力。相比之下,o1-mini 和 GPT-4o 在所有评估指标上表现较差,这可能是由于基础模型规模较小或其推理能力不足。这些观察结果强调了 LLM-EO 在不同模型中的表现差异性,并表明其在模型改进方面的潜力。
LLM-EO 在优化 HOMO-LUMO 能隙这一关键属性时,凭借其高效的迭代搜索能力,与传统基因算法对比,不仅能更快速地识别关键化合物,还能充分利用历史数据。在仅评估较少化合物(200 个 TMCs)的情况下,成功识别出了前 20 个 HOMO-LUMO 能隙最大 TMCs 中的 8 个,占 1.37M 设计空间的 0.015%。这充分展示了 LLM-EO 在大规模化学空间中的探索能力。
LLM-EO 提供了灵活的多目标优化能力
通过自然语言提示工程,研究人员可以在不依赖复杂数学公式的情况下,灵活地调整优化目标。例如,在优化 HOMO-LUMO 能隙和极化率时,LLM-EO 能够同时考虑这两个性质,根据提示词的不同,进行不同目标的双性质优化。这种灵活性使得 LLM-EO 在实验室环境中实现闭环优化成为可能。
LLM-EO 能够生成新的配体结构
利用 LLM 的生成能力,LLM-EO 可以提出具有独特化学性质的新配体和 TMCs,大大加速了优化过程。我们将这种生成能力分别在单性质优化和多性质优化的场景下进行了测试。结果表明 LLM-EO 有能力生成原化学空间之外的配体化合物结构,这种能力突破了传统化学直觉定义的化学空间,开启了创新化合物设计的无限可能。
未来展望
随着 LLM 逐步发展,LLM-EO 的能力将持续提升。「深度原理」的创始人兼CTO 段辰儒表示,「在化学方面,LLM 初步展示出人类平均的智能水平。但平均水平在前沿科学探索是完全不够的。我们旨在使用外接的工作流程激发 LLM 的潜能,助使它们完成一系列顶尖科学家才有可能做到的事情。」
「深度原理」的机器学习带头人陆婕妤说,「我们相信,LLM-EO 不仅为化学空间的探索提供了一种全新的视角,还将在未来的药物设计和材料发现中发挥重要作用。通过不断优化和扩展 LLM-EO 的应用,我们期待在科学研究的多个领域实现更高效、更智能的化学设计。」