Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI 驱动化学空间探索,大语言模型精准导航,直达目标分子

图片

作者 | 「深度原理」陆婕妤

编辑 | ScienceAI

现代科学研究中,化学空间的探索是化学发现和材料科学的核心挑战之一。过渡金属配合物(TMCs)的设计中,由金属和配体组成的庞大化学空间为多目标优化的搜索带来了难度。

为了解决这一问题,来自「深度原理」 (Deep Principle) 和康奈尔大学的研究者们开发了一种名为 LLM-EO(Large Language Model for Evolutionary Optimization)的新型工作流程算法,释放大型语言模型(LLM)的生成和预测潜能,显著提高了化学空间探索的效率。

相关研究以「Generative Design of Functional Metal Complexes Utilizing the Internal Knowledge of Large Language Models」为题,发布在预印平台 arXiv 上。

图片

论文链接:https://arxiv.org/abs/2410.18136

LLM-EO 的工作原理

LLM-EO 是一种创新的优化框架,结合了大型语言模型的生成能力与进化优化算法,专为在化学空间中进行高效的优化设计。

其工作原理依赖于 LLM 在预训练过程中积累的丰富化学知识和生成能力。在每次迭代中,LLM 根据用自然语言描述的设计目标和约束条件生成新的过渡金属配合物(TMCs)。这些生成的 TMCs 被整合到提示中,作为下一次迭代的知识基础,从而完成进化优化。

图片

与传统的进化优化算法(如遗传算法)相比,LLM-EO 具有三个关键优势:

1.灵活的目标控制:LLM-EO 允许使用自然语言来表达更灵活和细致的优化目标,而不需要复杂的数学公式。这种灵活性使得研究人员能够快速调整优化策略,以适应不同的研究需求。

2.优化效率的提升:LLM 中嵌入的丰富化学知识和其从少量样本中学习的能力显著提高了优化效率。通过利用LLM的强大推理能力,LLM-EO 能够在较少的实验次数下获得更优的结果。

3.新化学结构的生成设计:LLM 的生成能力使 LLM-EO 不仅能高效地搜索预定义的化学空间,还能创造性地生成新的 TMCs。LLM-EO 能够提出具有创新性的化学结构,突破传统设计的限制。

实验结果与性能分析

LLM-EO 在化学空间中进行高效探索

LLM 本身具有丰富的化学知识。Claude-3.5-sonnet 和 o1-preview 模型成功识别出具有大 HOMO-LUMO 能隙的化合物,其表现优于传统基准算法。同时,它们在有效性和独特性指标上也显示出良好的表现。

值得注意的是,这种优势在提供少量初始 TMCs 的情况下便能显现,展示了这两个模型在复杂化学空间中识别高潜力化合物的能力。相比之下,o1-mini 和 GPT-4o 在所有评估指标上表现较差,这可能是由于基础模型规模较小或其推理能力不足。这些观察结果强调了 LLM-EO 在不同模型中的表现差异性,并表明其在模型改进方面的潜力。

图片

LLM-EO 在优化 HOMO-LUMO 能隙这一关键属性时,凭借其高效的迭代搜索能力,与传统基因算法对比,不仅能更快速地识别关键化合物,还能充分利用历史数据。在仅评估较少化合物(200 个 TMCs)的情况下,成功识别出了前 20 个 HOMO-LUMO 能隙最大 TMCs 中的 8 个,占 1.37M 设计空间的 0.015%。这充分展示了 LLM-EO 在大规模化学空间中的探索能力。

图片

LLM-EO 提供了灵活的多目标优化能力

通过自然语言提示工程,研究人员可以在不依赖复杂数学公式的情况下,灵活地调整优化目标。例如,在优化 HOMO-LUMO 能隙和极化率时,LLM-EO 能够同时考虑这两个性质,根据提示词的不同,进行不同目标的双性质优化。这种灵活性使得 LLM-EO 在实验室环境中实现闭环优化成为可能。

图片

LLM-EO 能够生成新的配体结构

利用 LLM 的生成能力,LLM-EO 可以提出具有独特化学性质的新配体和 TMCs,大大加速了优化过程。我们将这种生成能力分别在单性质优化和多性质优化的场景下进行了测试。结果表明 LLM-EO 有能力生成原化学空间之外的配体化合物结构,这种能力突破了传统化学直觉定义的化学空间,开启了创新化合物设计的无限可能。

图片

未来展望

随着 LLM 逐步发展,LLM-EO 的能力将持续提升。「深度原理」的创始人兼CTO 段辰儒表示,「在化学方面,LLM 初步展示出人类平均的智能水平。但平均水平在前沿科学探索是完全不够的。我们旨在使用外接的工作流程激发 LLM 的潜能,助使它们完成一系列顶尖科学家才有可能做到的事情。」

 「深度原理」的机器学习带头人陆婕妤说,「我们相信,LLM-EO 不仅为化学空间的探索提供了一种全新的视角,还将在未来的药物设计和材料发现中发挥重要作用。通过不断优化和扩展 LLM-EO 的应用,我们期待在科学研究的多个领域实现更高效、更智能的化学设计。」

理论材料学化学LLMAI for ScienceAI
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

遗传算法技术

遗传算法是计算数学中用于解决最优化的搜索算法,是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。 遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题,一定数量的候选解可抽象表示为染色体,使种群向更好的解进化。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

多目标优化技术

多目标优化是多准则决策的一个领域,它是涉及多个目标函数同时优化的数学问题。多目标优化已经应用于许多科学领域,包括工程、经济和物流,其中需要在两个或多个相互冲突的目标之间进行权衡的情况下作出最优决策。分别涉及两个和三个目标的多目标优化问题的例子有:在购买汽车时降低成本,同时使舒适性最大化;在使车辆的燃料消耗和污染物排放最小化的同时将性能最大化。

推荐文章
暂无评论
暂无评论~