ScienceAI原创

2024/08/06 15:13

准确率达60.8%，浙大基于Transformer的化学逆合成预测模型，登Nature子刊

编辑 | KX

逆合成是药物发现和有机合成中的一项关键任务，AI 越来越多地用于加快这一过程。

现有 AI 方法性能不尽人意，多样性有限。在实践中，化学反应通常会引起局部分子变化，反应物和产物之间存在很大重叠。

受此启发，浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务，迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型 EditRetro，该模型可以实现高质量和多样化的预测。

大量实验表明，模型在标准基准数据集 USPTO-50 K 上取得了出色的性能，top-1 准确率达到 60.8%。

结果表明，EditRetro 表现出良好的泛化能力和稳健性，凸显了其在 AI 驱动的化学合成规划领域的潜力。

相关研究以「Retrosynthesis prediction with an iterative string editing model」为题，于 7 月 30 日发布在《Nature Communications》上。

论文链接：https://www.nature.com/articles/s41467-024-50617-1

分子合成路径设计是有机合成的一项重要任务，对生物医学、制药和材料工业等各个领域都具有重要意义。

逆合成分析是开发合成路线最广泛使用的方法。它包括使用已建立的反应将分子迭代分解为更简单、更易于合成的前体。

近年来，AI 驱动的逆合成促进了对更复杂分子的探索，大大减少了设计合成实验所需的时间和精力。单步逆合成预测是逆合成规划的重要组成部分，目前已有几种基于深度学习的方法，且效果优异。这些方法大致可分为三类：基于模板的方法、无模板的方法和半基于模板的方法。

在此，研究人员专注于无模板逆合成预测。提出将问题重新定义为分子字符串编辑任务，并提出基于编辑的逆合成模型 EditRetro，可以实现高质量和多样化的预测。

图示：所提出的基于分子串的逆合成的 EditRetro 方法的示意图。（来源：论文）

该研究的核心概念是，通过使用 Levenshtein 操作的迭代编辑过程生成反应物字符串。该方法从基于编辑的序列生成模型的最新进展中汲取灵感。具体来说，采用了 EDITOR 中的操作，EDITOR 是一种基于编辑的 Transformer，专为神经机器翻译而设计。

EditRetro 概述

EditRetro 模型包含三种编辑操作，即序列重新定位、占位符插入和标记插入，以生成反应物字符串。它由一个 Transformer 模型实现，该模型由一个编码器和三个解码器组成，两者都由堆叠的 Transformer 块组成。

重新定位解码器：重新定位操作包括基本的 token 编辑操作，例如保留、删除和重新排序。它可以与识别反应中心的过程进行比较，包括重新排序和删除原子或基团以获得合成子。
占位符解码器：占位符插入策略（分类器）预测要在相邻 token 之间插入的占位符数量。它在确定反应物的结构方面起着至关重要的作用，类似于识别从序列重新定位阶段获得的中间合成子中添加原子或基团的位置。
Token 解码器：token 插入策略（分类器），负责为每个占位符生成候选 token。这对于确定可用于合成目标产品的实际反应物至关重要。该过程可以看作是合成子完成的类似过程，结合占位符插入操作。

EditRetro 模型通过其非自回归解码器提高了生成效率。尽管结合了额外的解码器来迭代预测编辑操作，但 EditRetro 在每个解码器内并行执行编辑操作（即非自回归生成）。

当给定一个目标分子时，编码器将其字符串作为输入并生成相应的隐藏表示，然后将其用作解码器交叉注意模块的输入。类似地，解码器也在第一次迭代时将产品字符串作为输入。在每次解码迭代期间，三个解码器依次执行。

优于基线、生成准确反应物

研究人员在公共基准数据集 USPTO-50K 和 USPTO-FULL 上评估了所提方法。大量实验结果表明，该方法在预测准确度方面优于其他基线，包括最先进的基于序列的方法 R-SMILES 和基于图编辑的方法 Graph2Edits。

EditRetro 在基准逆合成数据集 USPTO-50K 上进行的大量实验表明，EditRetro 取得了优越的性能，top-1 精确匹配准确率达到 60.8%。

此外，在更大的 USPTO-FULL 数据集上，其中 top-1 精确匹配准确率达到 52.2%，证明了其在更多样化和更具挑战性的化学反应中是有效的。

EditRetro 在 RoundTrip 和 MaxFrag 准确率方面也表现出优于基线方法的性能。这证明了 EditRetro 能够有效地学习化学规则。

此外，EditRetro 通过精心设计的推理模块提供多样化的预测。该模块结合了重新定位采样和序列增强，有助于生成多样化和变化的预测。重新定位采样对重新定位动作的预测进行采样，从而能够识别不同的反应位点。序列增强从不同的产品变体到反应物生成不同的编辑途径，从而提高了预测的准确性和多样性。这两种策略共同作用，提高了预测的准确性和多样性。

进一步的实验验证了 EditRetro 在一些更复杂的反应中的优越性，包括手性、开环和成环反应。结果证实了 EditRetro 在这些具有挑战性的场景中的优越性，证明了它能够处理不同类型的化学转化。

在多步合成规划中的实用性

特别是，EditRetro 在四个多步骤逆合成规划场景中的成功应用证明了其实用性。

为了评估 EditRetro 在合成规划中的实用性，通过连续的逆合成预测设计完整的化学途径。研究人员选择了四种具有重要药用价值的目标化合物进行评估：非布司他、奥希替尼、GPX4 的变构激活剂和 DDR1 激酶抑制剂 INS015_037。

图示：EditRetro 的多步逆合成预测。（来源：论文）

所有四个示例都产生了与文献中报道的途径非常一致的逆合成途径，大多数预测排名在前两位。在考虑的 16 个单独步骤中，有 10 个步骤的预测准确率为 1。这些结果证明了 EditRetro 在实际逆合成预测中的实际潜力。

通过提供有价值的见解并促进高效合成路线的设计，该方法有望在逆合成规划领域得到实际应用。

理论

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

神经机器翻译技术

2013 年，Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络（CNN）将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络（RNN）作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译（NMT）的诞生；神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型，而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外，RNN 应该还能得到无限长句子背后的信息，从而解决所谓的「长距离重新排序（long distance reordering）」问题。

来源：机器之心

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括：在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化，以及尝试对学习集的剩余部分进行猜测，并且输出正确的结果。当与多个泛化器一起使用时，堆叠泛化可以被看作是一个交叉验证的复杂版本，利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时，堆叠泛化是一种用于估计（然后纠正）泛化器的错误的方法，该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

来源：Wolpert, D. H. (1992). Stacked generalization. Neural networks, 5(2), 241-259

药物发现技术

在医学，生物技术和药理学领域，药物发现是发现新候选药物的过程。

来源：wiki