Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Transformer革新药物研发:TRACER框架实现反应感知的分子设计与合成优化

图片
编辑 | 2049

药物研发周期长、成本高是制药行业面临的重大挑战。据统计,一个新药从研发到上市平均需要 12 年时间,投入高达 26 亿美元。为提升研发效率,深度学习在分子生成领域取得了显著进展。然而,大多数方法仅关注「设计什么」,而忽视了「如何合成」这一关键问题。

来自东京科学大学(Institute of Science Tokyo)的研究团队提出了一个名为 TRACER 的创新框架,通过将分子性质优化与合成路径生成有机结合,实现了反应感知的化合物智能探索。

该研究以「Molecular optimization using a conditional transformer for reaction-aware compound exploration with reinforcement learning」为题,于 2025 年 2 月 8 日发表在《Communications Chemistry》。
图片

论文链接:https://www.nature.com/articles/s42004-025-01437-x

研究背景

当前分子生成模型面临的核心矛盾在于「生成能力」与「合成可行性」的割裂。主流方法如 Molecule Chef 等基于潜空间优化的模型,虽能通过反应数据集学习化学转化模式,但受限于单步反应处理和固定模板库(约 100 个反应类型),难以应对真实合成中复杂的区域选择性和化学选择性)。

传统 SA 评分等拓扑方法虽能快速评估合成难度,却无法捕捉动态反应条件的影响。更深层的矛盾在于,现有模型要么像 CasVAE 般依赖预定义模板库导致创新性受限,要么如 DoG-Gen 采用端到端架构牺牲了反应知识的显式建模。这种技术断层导致生成分子中仅 17-43% 具有实际合成价值。

TRACER 的创新突破在于将 1000 种真实反应类型编码为条件令牌,使 Transformer 能同时学习「生成什么」和「如何生成」,为药物发现开辟反应感知的分子设计新维度。

图片
图示:先前研究和拟议方法的比较。(来源:论文)

理论框架:反应知识的三重编码机制

TRACER 的核心理念建立在「反应条件-结构转化-属性优化」的协同学习上。不同于传统潜空间模型将分子与反应信息压缩为连续向量,研究团队采用显式分离架构:图卷积网络(GCN)预测适用反应模板,条件 Transformer 执行具体转化,MCTS 负责全局优化。

图片

图示:全面概述包含条件变压器和 MCTS 的综合模型。(来源:论文)

这种解耦设计使模型能同时处理两类关键信息流——GCN 从分子图中提取的拓扑特征与 Transformer 通过注意力机制捕捉的序列模式。

图片

图示:条件转换器用于在反应模板条件下学习结构转换的程序。(来源:论文)

特别值得关注的是条件令牌的引入,将反应类型索引嵌入 SMILES 序列头部,使模型在训练时能区分胺化、偶联等不同转化类型。如表 1 所示,加入反应条件使完美准确率从 0.2 跃升至 0.6,证明条件信息能有效缩小化学空间搜索范围。

技术实现:虚拟合成树的动态构建

在算法层面,TRACER 通过四阶段 MCTS 实现分子优化与路径生成的闭环。

选择阶段采用改进 UCB 公式平衡探索-利用矛盾,其中价值函数 Q(s) 整合 QSAR 预测值和合成复杂度评估。扩展阶段的双重过滤机制是关键创新:GCN 首轮筛选出 10 个最相关反应模板(top-5 准确率 77.1%),随后通过子结构匹配剔除 30% 不适用方案。

Transformer 在束宽 10-50 条件下生成候选产物,其独特的多步推理能力可处理 Friedel-Crafts 酰化等复杂转化。

图片

图示:对 DRD2 具有最高 QSAR 值的化合物及其合成路线。(来源:论文)

实验显示,相较于无约束 Transformer 仅 43.3% 的母核保留率,TRACER 达到 94.5%,证明其能有效维持药物分子关键骨架。

实验验证:跨越三个靶点的性能突破

在 DRD2、AKT1、CXCR4 靶点的对比实验中,TRACER 展现出独特优势。当束宽优化至 30 时,对 USPTO 库外分子的生成比例达 99.8%,Fréchet ChemNet 距离 14.3,远超 Molecule Chef(2.60)和 SynFlowNet(17.0)。

图片

图示:针对每种蛋白质的分子生成模型之间的比较。(来源:论文)

更值得注意的是,从 ZINC 数据库筛选的初始分子(QSAR≈0)出发,经过 3-4 步虚拟合成即可获得活性值 > 0.5 的化合物,其与已知配体的 Tanimoto 相似度最高达 0.838。

想在合成可行性方面,生成分子平均 SA 评分 2.52 与基准模型相当,但分子量分布更接近上市药物(412 vs 465 Da)。这些数据验证了 TRACER 在探索性(生成新颖结构)与实用性(保证可合成性)之间的精妙平衡。

图片

图示:随机森林中包含的超参数范围和每个目标蛋白质的选定值。(来源:论文)

未来展望

TRACER 框架的突破性价值在于首次实现了分子属性优化与合成路径生成的耦合学习,将 AI 药物发现从「纸上谈兵」推向「实战推演」。实验证明其生成的化合物中大部分包含可商业化获取的砌块,这对加速 DMTA(设计-合成-测试-分析)循环具有现实意义。

当前模型仍受限于初始化合物选择对优化效率的影响,且在涉及多组分反应的场景中预测精度有所下降。未来研究可通过引入反应条件推荐模块、整合逆合成分析,以及扩展至更大规模的反应类型训练数据来增强实用性。

这项研究更深远的意义在于揭示:当 AI 模型能够理解化学转化的内在逻辑时,虚拟分子设计才能真正对接实验室的实际需求。

理论智能科研AI for Science化学AI 模型
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~