Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

击败25个分子设计算法,佐治亚理工、多伦多大学、康奈尔提出大语言模型MOLLEO

图片

作者 | 佐治亚理工学院王浩瑞

编辑 | ScienceAI

分子发现作为优化问题,因其优化目标可能不可微分而带来显著的计算挑战。进化算法(EAs)常用于优化分子发现中的黑箱目标,通过随机突变和交叉来遍历化学空间,但这会导致大量昂贵的目标评估。

在这项工作中,佐治亚理工学院、多伦多大学和康奈尔大学研究者合作提出了分子语言增强进化优化(MOLLEO),通过将拥有化学知识的预训练大语言模型(LLMs)整合到进化算法中,显著改善了进化算法的分子优化能力。

该研究以《Efficient Evolutionary Search Over Chemical Space with Large Language Models》为题,于 6 月 23 日发布在预印平台 arXix 上。

图片

论文链接:https://arxiv.org/abs/2406.16976

分子发现的巨大计算挑战

分子发现是一个复杂的迭代过程,涉及候选分子的设计、合成、评估和改进,在现实世界有广泛的应用,包括药物设计,材料设计,改善能源,疾病问题等。这个过程通常缓慢且费力,由于复杂的设计条件与评估分子属性通常需要昂贵的评估(如湿法实验、生物测定和计算模拟),即使是近似的计算评估也需要大量资源。

因此,开发高效的分子搜索、预测和生成算法已成为化学领域的一个研究热点,以加速发现过程。特别是,机器学习驱动的方法在快速识别和提出有前途的分子候选物方面发挥了重要作用。

由于问题的重要性,分子优化受到了极大的关注,包括已经发展测试的超过20多种分子设计算法(其中遗传算法强化学习等组合优化的方法领先于其他生成模型和连续优化算法),详见最近Nature子刊的综述文章。其中效果最佳之一的方法为进化算法(EAs),这些算法的特点是不需要梯度评估,因此非常适合用于分子发现中的黑箱目标优化。

然而,这些算法的一个主要缺点是它们随机生成候选结构而不利用任务特定的信息,从而导致需要大量的目标函数评估。因为评估属性的昂贵,分子优化除了找到最佳期待属性的分子结构,同时也要最小化目标函数评估次数(也等同于提高搜索效率)。

最近,LLM在多项与化学相关的任务中表现出了一些基本能力,如预测分子属性、检索最优分子、自动化化学实验和生成具有目标属性的分子。由于LLM在包含广泛任务的大规模文本语料库上进行了训练,它们展示了通用的语言理解能力和基本的化学知识,使其成为化学发现任务的有趣工具。

然而,许多基于LLM的方法依赖于上下文学习(in-context learning)和提示工程,这在设计具有严格数值目标的分子时可能会出现问题,因为LLM可能难以满足精确的数值约束或优化特定的数值目标。此外,单纯依赖LLM提示的方法可能会生成物理基础较差的分子,或者生成无法解码为化学结构的无效SMILES字符串。

分子语言增强进化优化

在本研究中,我们提出了分子语言增强进化优化(MOLLEO),该方法将LLM整合到EA中以提高生成候选物的质量并加速优化过程。MOLLEO利用LLM作为遗传操作符,通过交叉或变异生成新的候选物。我们首次展示了如何将LLM整合到EA框架中以进行分子生成。

在该研究中,我们考虑了三个不同能力强度的语言模型:GPT-4、BioT5和MoleculeSTM。我们将每个LLM整合到不同的交叉和变异程序中,并通过消融研究证明了我们的设计选择。

我们通过多个黑箱优化任务的实验证明了MOLLEO的优越性能,包括单目标和多目标优化。对于所有任务,包括更具挑战性的蛋白质-配体对接,MOLLEO均优于基线EA和其他25个强基线方法。此外,我们还展示了MOLLEO在ZINC 250K数据库中的最佳JNK3抑制剂分子上进一步优化的能力。

我们的MOLLEO框架基于一种简单的进化算法,Graph-GA算法,并通过在遗传操作中整合化学感知的LLM来增强其功能。

我们首先概述了问题陈述,强调在黑箱优化中最小化昂贵目标评估的必要性。MOLLEO利用LLM(如GPT-4、BioT5和MoleculeSTM)在目标描述的指导下生成新的候选分子。

具体而言,在交叉步骤中,我们不是随机结合两个父分子,而是使用LLM生成最大化目标适应度函数的分子。在变异步骤中,操作符根据目标描述对当前种群中最适应的成员进行变异。然而,我们注意到LLM并不总是生成适应度高于输入分子的候选物,因此我们构建了选择压力,基于结构相似性过滤编辑过的分子。

实验结果

我们在18个任务上评估了MOLLEO。任务选自PMO和TDC基准测试和数据库,可以分为以下几类:

  1. 基于结构的优化:根据目标结构优化分子,包括基于目标分子公式的同分异构体生成(isomers_c9h10n2o2pf2cl)和两个基于匹配或避免骨架和亚结构基序的任务(deco_hop, scaffold_hop)。
  2. 基于名称的优化:包括找到与已知药物相似的化合物(mestranol_similarity, thiothixene_rediscovery)和三个多属性优化任务(MPO),这些任务在重新发现药物(如Perindopril, Ranolazine, Sitagliptin)的同时优化其他属性,如疏水性(LogP)和渗透性(TPSA)。尽管这些任务主要涉及重新发现现有药物而非设计新分子,但它们展示了LLM具有基本的化学优化能力。
  3. 属性优化:包括简单的属性优化任务QED,衡量分子的药物相似性。然后,我们关注PMO中的三个任务,衡量分子对以下蛋白质的活性:DRD2(多巴胺受体D2),GSK3β(糖原合酶激酶-3β),和JNK3(c-Jun氨基末端激酶-3)。此外,我们还包括了TDC中的三个蛋白质-配体对接任务(结构性药物设计),这些任务比简单的物理化学性质更接近现实世界的药物设计。

为了评估我们的方法,我们按照PMO基准测试的方法,综合考虑了目标值和计算预算,报告了前k个平均属性值与目标函数调用次数的曲线下面积(AUC top-k)。

作为对比基准,我们使用了PMO基准测试中的顶级模型,包括基于强化学习的REINVENT、基础进化算法Graph-GA和高斯过程贝叶斯优化GP BO。

图片

图示:单目标任务的Top-10 AUC。(来源:论文)

我们在PMO的12项任务中进行了单目标优化实验,结果上表所示,我们报告了每项任务的AUC top-10 得分以及各模型的总体排名。结果表明,使用任意一个大型语言模型(LLM)作为遗传操作符,都能提高性能,超过默认的Graph-GA和其他所有基线模型。

GPT-4在12项任务中有9项表现优于所有模型,展示了其作为一个通用大语言模型在分子生成中的有效性与前景。BioT5在所有测试模型中取得了第二好的结果,总分接近GPT-4,说明在领域知识上训练与微调的小模型在MOLLEO中也有很好的应用前景。

MOLSTM是基于CLIP模型在分子的自然语言描述和分子的化学式上微调的小模型,我们在进化算法中在相同的自然语言描述上使用梯度下降算法来产生不同的新分子,它的表现也优于其他的基准方法。

图片

图示:JNK3抑制随迭代次数增加而出现的群体适应度。(来源:论文)

为了验证将LLM整合到EA框架中的有效性,我们展示了初始随机分子池在JNK3任务上的得分分布。随后,我们对池中的所有分子进行了一轮编辑,并绘制了编辑后分子的JNK3得分分布。

结果表明,经过LLM编辑后的分布都略微向更高的得分方向偏移,这表明LLM确实提供了有用的修改。然而,总体目标得分仍然较低,因此单步编辑并不足够,在这里使用进化算法进行迭代优化是必要的。

图片

图示:与DRD3、EGFR或腺苷A2A受体蛋白对接时前10个分子的平均对接得分。(来源:论文)

除了PMO中的12个单目标优化任务外,我们还在更具挑战性的蛋白质-配体对接任务中测试了MOLLEO,这些任务比单目标任务更接近于现实世界中的分子生成场景。上图是MOLLEO和Graph-GA的前十个最好分子的平均对接评分与目标函数调用次数的关系图。

结果表明,在所有三种蛋白质中,我们的方法生成的分子的对接评分几乎都优于基线模型,并且收敛速度更快。在我们使用的三种语言模型中,BioT5表现最佳。在现实中,更好的对接评分和更快的收敛速度可以减少筛选分子所需的生物检测次数,使这一过程在成本和时间上都更有效。

图片

图示:多目标任务的求和和超体积分数。(来源:论文)

图片

图示:Graph-GA和MOLLEO在多目标任务上的帕累托最优可视化。(来源:论文)

对于多目标优化,我们考虑了两个指标:所有优化目标的得分之和的AUC top-10和帕累托最优集的超体积。我们展示了多目标优化在三个任务中的结果。任务1和任务2受到药物发现目标的启发,旨在同时优化三个目标:最大化分子的QED、最小化其合成可及性(SA)评分(意味着更容易合成)以及最大化其对JNK3(任务1)或GSK3β(任务2)的结合评分。任务3更加具有挑战性,因为它需要同时优化五个目标:最大化QED和JNK3结合评分,以及最小化GSK3β结合评分、DRD2结合评分和SA评分。

我们发现,在所有三个任务中,MOLLEO(GPT-4)在超体积和总和方面都始终优于基线的Graph-GA。在图中,我们可视化了任务1和任务2中我们的方法和Graph-GA的帕累托最优集(在目标空间中)。当在引入多个目标时,开源的语言模型的性能下降。我们推测这种性能下降可能源于它们无法捕捉大量信息密集的上下文。

图片

图示:使用ZINC 250K中的最佳分子初始化MOLLEO。(来源:论文)

进化算法的最终目标是改进初始分子池的性质并发现新分子,为了探索MOLLEO探索新分子的能力,我们用ZINC 250K中的最佳分子初始化分子池,然后使用MOLLEO和Graph-GA进行优化。在JNK3任务上的实验结果显示,我们的算法始终能优于基线模型Graph-GA,并且能够改进现有数据集中找到的最佳分子。

此外,我们还注意到BioT5的训练集是ZINC20数据库(包含14亿化合物),MoleculeSTM的训练集是PubChem数据库(约25万分子)。我们检查了每个模型在JNK3任务中生成的最终分子是否出现在相应的数据集中。结果发现,生成的分子与数据集中并没有重叠。这表明模型能够生成新的、未在训练集中出现的分子。

可应用于药物发现、材料、生物分子设计

分子发现和设计是一个具有众多实际应用的丰富领域,许多应用超出了当前研究的范围,但与我们提出的框架仍然相关。MOLLEO将LLM与EA算法结合,通过纯文本的结合方式提供了灵活的算法框架,在未来MOLLEO可以应用于药物发现、昂贵的计算机模拟以及材料或大型生物分子的设计等场景。

未来工作我们将进一步关注如何提高生成分子的质量,包括其目标值和发现速度。随着LLM的不断进步,我们预计MOLLEO框架的性能也将继续提升,使之成为生成化学应用中的一个有前景的工具。

理论
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

高斯过程技术

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

遗传算法技术

遗传算法是计算数学中用于解决最优化的搜索算法,是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。 遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题,一定数量的候选解可抽象表示为染色体,使种群向更好的解进化。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

多目标优化技术

多目标优化是多准则决策的一个领域,它是涉及多个目标函数同时优化的数学问题。多目标优化已经应用于许多科学领域,包括工程、经济和物流,其中需要在两个或多个相互冲突的目标之间进行权衡的情况下作出最优决策。分别涉及两个和三个目标的多目标优化问题的例子有:在购买汽车时降低成本,同时使舒适性最大化;在使车辆的燃料消耗和污染物排放最小化的同时将性能最大化。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

暂无评论
暂无评论~