Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

成功率提升15%,浙大、碳硅智慧用LLM进行多属性分子优化,登Nature子刊

图片

编辑 | 萝卜皮

优化候选分子的物理化学和功能特性一直是药物和材料设计中的一项关键任务。

虽然人工智能很适合处理平衡多个(可能相互冲突的)优化目标的任务,但是例如多属性标记训练数据的稀疏性等技术挑战,长期以来阻碍了解决方案的开发。

在最新的研究中,浙江大学侯廷军团队、中南大学曹东升团队以及碳硅智慧团队联合开发了一种分子优化工具 Prompt-MolOpt。

它利用大型语言模型中使用的基于 Prompt 的嵌入来提高 Transformer 优化分子进行特定属性调整的能力。

Prompt-MolOpt 擅长处理有限的多属性数据(即使在零样本设置下),因为它可以有效地概括从单属性数据集中学习到的因果关系。

在与 JTNN、hierG2G 和 Modof 等成熟模型的比较评估中,与领先的 Modof 模型相比,Prompt-MolOpt 的多属性优化成功率相对提高了 15% 以上。

此外,Prompt-MolOpt 的一个变体,即 Prompt-MolOptP,可以在结构变换下保留药效团或任何用户指定的片段,进一步拓宽其应用范围。

通过构建定制的优化数据集,Prompt-MolOpt 将分子优化引导至与领域相关的化学空间,从而提高优化分子的质量。

该研究以「Leveraging language model for advanced multiproperty molecular optimization via prompt engineering」为题,于 2024 年 10 月 21 日发布在《Nature Machine Intelligence》

图片

在材料和分子设计领域,目标从来都不是简单的,也从来都不是单一的。设计任务通常必须满足许多(有时甚至可能相互冲突的)约束,例如要求候选药物具有高效力和特异性。

然而,研究人员通常会简化问题,并在漫长的设计过程的初始阶段专注于发现满足一些主要先决条件的分子。例如,在药物设计中,首先通过筛选确定的命中化合物必须对特定的分子靶标表现出强活性。

在关键的药物形成特性(如功效、安全性和药代动力学)之间实现平衡是一项具有挑战性的多目标优化。当前的分子优化方法主要针对单目标优化。

LLM 结合 Prompt 来灵活应对

大型语言模型 (LLM)(例如 GPT-3)最近已成为计算领域的关键实体,并在多学科领域获得了广泛关注。

这些 LLM 的一个显著特点是它们善于利用 Prompt,这使它们具有无与伦比的零次和少次学习能力,以及在一系列任务中独特的多功能性。

在分子优化中,基于 Prompt 的技术的应用可以有效地定制模型以解决复杂的优化目标,从而克服传统的多目标障碍。

这种灵活的方法有助于描绘复杂的目标函数,从而避免了多目标优化中长期存在的需要明确构建多目标函数的瓶颈。

这种灵活性在药物研发领域尤为重要,因为药物研发领域经常受到数据稀缺的阻碍。

Prompt-MolOpt

浙江大学、中南大学、碳硅智慧的研究人员认为,通过使用具有特定于属性的 token 嵌入的 Prompt,可以充分利用现有数据(无论多么稀疏)来实现零次和少量学习能力,从而缓解因数据稀缺而引起的问题。

该团队通过引入基于多功能 Transformer 架构的 Prompt 驱动分子优化方案 Prompt-MolOpt 来支持他们的观点。

图片

图示:Prompt-MolOpt 的整体工作流程。(来源:论文)

值得注意的是,子结构掩码解释 (SME) 方法提供了类似于 MMPA 的单属性优化方法。通过使用它,研究人员可以为任何可以构建预测模型的属性生成领域相关的分子优化训练数据集,从而作为 Prompt-MolOpt 的训练基础。

该团队最初使用多图注意神经网络(MGA)构建一个多任务属性预测模型,该模型能够生成特定于属性的原子节点嵌入。在分子结构优化过程中,通过向原子标记添加特定属性的嵌入,引入 Prompt 来引导优化朝着指定属性的方向发展。

测试结果表明,该方法在多属性优化方面的表现远远优于现有方法。此外,该模型展示了少样本学习和零样本学习的潜力,与分子优化中的实际应用场景非常吻合。

图片

图示:分子优化数据集的构建。(来源:论文)

这种创新方法可以精确指定需要保存的分子结构,同时巧妙地优化剩余的结构,产生符合所需特性的分子。通过药效团注释和 Prompt,Prompt-MolOpt 促进了 AI 与领域专家之间的互动协作。

这种协同作用使专家能够指导优化过程,无论是通过药效团注释保留关键结构元素,还是使用特定 Prompt 灵活选择优化属性。

与 JTNN、hierG2G 和 Modof 等成熟模型相比,Prompt-MolOpt 在多属性优化方面表现出色,多属性优化成功率相对提高了 15% 以上。

Prompt-MolOpt 的一个显著优势是其零样本学习能力,即使在没有直接进行多属性训练的情况下也能提供令人称赞的性能。

值得注意的是,分子优化任务的成功复制,特别是在改善 BBBP 和减轻 hERG 心脏毒性方面,凸显了 Prompt-MolOpt 在实际应用中的显著有效性。

认识到在实际分子优化中保留药效团的共同要求,研究人员提出了一种可以修复这些关键结构的模型变体(Prompt-MolOptp),从而允许有针对性的优化,同时保留所需的药效团。

图片

图示:Prompt-MolOpt分子优化框架概述。(来源:论文)

现实世界的优化案例(例如涉及血脑屏障通透性优化的测试)证实了 Prompt-MolOptp 的有效性,揭示了其在分子结构优化中的巨大潜力,并为多目标结构优化提供了一条有潜力的途径。

图片

图示:Prompt-MolOptp 现实世界的多属性和多站点 BBBP 优化案例研究。(来源:论文)

此外,Prompt-MolOpt 的综合工作流程适用于各个领域的类似分子优化任务,不仅限于药物发现,使其成为分子优化的有效工具。

改进空间

尽管取得了这些进步,Prompt-MolOpt 仍有改进空间。

首先,当前的优化没有充分整合目标信息以考虑活性。虽然研究人员将活性视为可优化属性(DRD2)或通过固定的药学大分子保留它,但利用目标蛋白质的 3D 数据将与现实世界的药物设计场景更加契合。

其次,目前的方法并非专门用于处理手性,而手性对分子的物理化学性质有重大影响。手性是结构-活性关系中一个长期存在的挑战,解决手性问题需要进一步探索。

第三,在构建数据集时,这里依赖于 Murcko 子结构、逆合成有趣的化学子结构 (BRICS) 和功能基团的破坏,而不合并其他子结构,如生物电子等排体。在数据集构建中扩展更多的子结构将进一步增强模型的泛化能力。

同时,研究人员强调这三个挑战更像是有待实施的工程任务,而不是根本性的障碍。

结语

总之,Prompt-MolOpt 在多属性任务优化方面表现出了巨大的潜力,有望成为先进分子设计的强大工具。重要的是,除了药物分子,这个流程很容易适应其他分子优化工作。

论文链接:https://www.nature.com/articles/s42256-024-00916-5

理论LLM化学语言模型AI
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

零样本学习技术

从仅仅一个或一小撮样本中学习一个新的概念,而普通的机器学习标准算法通常需要几十或几百个表现类似的样本。

多目标优化技术

多目标优化是多准则决策的一个领域,它是涉及多个目标函数同时优化的数学问题。多目标优化已经应用于许多科学领域,包括工程、经济和物流,其中需要在两个或多个相互冲突的目标之间进行权衡的情况下作出最优决策。分别涉及两个和三个目标的多目标优化问题的例子有:在购买汽车时降低成本,同时使舒适性最大化;在使车辆的燃料消耗和污染物排放最小化的同时将性能最大化。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~