Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

无需训练即可定制分子生成:全新多模态引导框架TFG-Flow登上ICLR 2025

图片

编辑丨ScienceAI

在药物研发和材料科学领域,设计具有特定性质的分子是一项关键但耗时的任务。传统方法依赖大量实验试错,而生成式 AI 模型的出现为这一领域带来曙光。

然而,现有方法面临两大瓶颈:一是多数生成模型仅能处理连续型数据(如图像像素),难以应对分子设计中离散的原子类型与连续坐标共存的多模态数据;二是针对特定性质的定向生成通常需要额外训练模型,成本高昂。

近日,来自北京大学、卡耐基梅隆大学、斯坦福大学等机构的研究团队提出 TFG-Flow 框架,在无需额外训练的条件下,成功实现了多模态数据的定向分子生成。该方法在量子属性匹配、结构相似性优化、药物分子设计等任务中展现出显著优势,相关论文已被 ICLR 2025 接收。

图片

突破多模态引导的核心挑战

分子可被视为由离散的原子类型(如碳、氧、氮)和连续的3D坐标构成的多模态数据。现有生成模型在引导这类数据时面临两大难题:

1.维度灾难:离散变量的组合空间随原子数量呈指数增长,传统方法计算代价高昂 

2.几何不变性:由连续变量刻画的分子的 3D 结构需满足旋转、平移不变性,普通梯度引导会破坏这一特性 

TFG-Flow 通过创新性的双路径设计攻克了这些难题(图 1): 

  • 离散变量:采用蒙特卡洛重要性采样,将计算复杂度从指数级降至对数级 
  • 连续变量:引入旋转等变图神经网络(EGNN),确保坐标变换不影响分子性质

图片

图 1:TFG-Flow 通过离散采样与连续梯度引导的双路径实现多模态生成

实验表现:全方位超越基线模型

研究团队在 QM9、GEOM-Drug 等分子数据集上进行了系统验证:

量子属性精准匹配

以极化率(α)、偶极矩(μ)等 6 种量子属性为目标,TFG-Flow 的平均绝对误差(MAE)相比当前最优的无训练(training-free)引导方法降低 20.3%。如表 1 所示,其性能甚至逼近需要专门训练的条件生成模型

表 1:TFG-Flow 在量子属性任务中显著优于传统方法

图片

结构相似性优化

当以特定分子子结构为引导目标时,TFG-Flow 将生成分子与目标结构的Tanimoto 相似度提升了 76.8%(QM9 数据集)和 22.4%(GEOM-Drug 数据集),展现出精准的结构控制能力。

药物分子设计实战

在 CrossDocked2020 数据集上,TFG-Flow 生成的分子与蛋白质靶点的结合能(Vina Score)达到-7.65,优于主流方法 Pocket2Mol(-7.23)和 TargetDiff(-7.32),且分子合成可行性(SA Score)保持合理水平。

技术亮点:高效且通用

TFG-Flow 的核心优势体现在两大技术创新:

理论保障下的高效采样

针对离散变量,研究团队提出基于重要性采样的近似方法(图 2)。理论分析表明,提出的估计方法具有相合性等优良性质,且相比传统方法能够指数级降低计算量。实验观察发现这一方法仅需 16 次采样即可高精度估计转移概率。

图片

图 2:采样次数 K=16 时已能达到稳定性能

即插即用的预训练模型兼容

不同于需要从头训练的传统方法,TFG-Flow 可直接调用预训练分子模型(如UniMol)作为目标预测器。实验表明,使用 UniMol 时 TFG-Flow 的 MAE 进一步降低,与专业训练模型 EEGSDE 的差距显著缩小。得益于当前各类基座模型(foundation model)性能的增强,研究团队认为 TFG-Flow 在未来将有更强的潜力。

开启分子设计新范式

这项工作的价值不仅在于技术突破,更在于其方法论创新: 

  • 降低成本:无需针对每个新目标重新训练模型,计算资源消耗大大降低 
  • 拓展应用:框架可迁移至蛋白质设计、材料发现等需处理多模态数据的科学领域 
  • 促进协作:开源代码允许化学家直接引入领域知识定义目标函数 

研究团队表示,未来将探索更大规模的基础模型与 TFG-Flow 的结合,进一步释放 AI 在科学发现中的潜力。正如审稿人评价:「这项工作为生成模型在科学计算中的应用树立了新标杆。」

附:本文作者

林昊苇是北京大学人工智能研究院二年级博士生,导师为梁一韬教授和马剑竹教授,研究方向为生成模型及其在 AI4Science科 学发现中的应用。担任 ICML、NeurIPS、ICLR、CVPR、ACL(ARR)等顶会审稿人,在 ICML、NeurIPS、ICML、Nature Communications、TPAMI 等顶会顶刊发表 14 篇论文。

黎善达是卡耐基梅隆大学机器学习系三年级的博士生,导师为 Yiming Yang 教授和 Ameet Talwalkar 教授。他通过理论与实证研究理解机器学习模型的规律与局限,为更有效地运用机器学习方法提供洞察。同时,他研究深度学习方法在数学推理、代码生成、微分方程求解、自然科学等领域的应用。

论文地址:https://arxiv.org/abs/2501.14216

代码开源:https://github.com/linhaowei1/TFG-Flow

理论ICLR 2025分子生成AI for Science
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~