分子设计是药物发现和材料科学中的一个核心挑战。目前,潜在可行的药物类小分子化合物的数量估计在10^23到10^60之间。这意味着即使使用最先进的计算方法,也无法穷举地搜索所有可能的分子结构。
高效地探索和深入理解庞大的化学空间,对于加速分子科学的进展和推进实际应用有着至关重要的作用。
统一的ChemFlow框架
为了解决上述挑战,来自康奈尔、哈佛、加州理工和深度原理的研究者们联合提出了一个名为ChemFlow的生成式AI新框架,被收录在2024年的NeurIPS会议中。
论文链接:https://arxiv.org/abs/2405.03987(点击文末「阅读原文」,直达Paper)
代码链接:https://github.com/garywei944/ChemFlow
新框架中引入了动力系统的视角,将问题表述为学习一个向量场,并由该向量场描述分子在潜在空间中的演化过程。
具体而言,ChemFlow将分子生成模型的潜在空间视为一个连续的空间,其中每个点对应于一个分子的潜在表示。通过学习一个向量场,ChemFlow可以在潜在空间中定义一个流,该流将分子分布的质量从当前区域传输到具有期望分子属性或结构多样性的目标区域。
这样的视角和方法有许多优势:
统一先前的方法:该框架统一了之前关于分子潜在空间遍历和优化的方法,包括基于梯度的优化、线性潜在遍历和解缠结遍历。 灵活性和可扩展性:允许引入非线性的变换,受现实物理系统中的偏微分方程(如波动方程和福克-普朗克方程)启发,可以更灵活地捕捉潜在空间的结构。 支持无监督训练:ChemFlow还可以支持同时探索分子潜在空间中多个互相解缠结的流,这些流在空间和时间上满足引入的偏微分方程。在应用阶段只需以较小的花费识别出期望分子属性所对应那个流就能实现无监督训练的定向优化。
实验验证
为了验证ChemFlow框架的有效性,研究者们在多个任务上进行了广泛的实验,包括分子操控、单目标和多目标的分子优化任务,涵盖了物理化学性质、药物相关属性和蛋白质-配体结合亲和力等多种指标。实验在有监督(spv)和无监督(unsup)的设置下,评估了ChemFlow的性能。
分子优化
分子优化任务旨在通过在潜在空间中导航,实现对分子特定属性的精确控制。例如,通过调整分子的潜在表示,ChemFlow可以增加或减少其溶水性(plogP)、类药性(QED)对特定蛋白质(ESR1和ACAA1)的结合亲和力等属性。
其中,HJ是哈密顿-雅可比方程(Hamilton Jacobi),LD是朗之万动力学(Langevin Dynamics)。实验结果表明,ChemFlow能够有效地在潜在空间中找到通往目标属性区域的路径,生成的分子在保持原有结构特征的同时,实现了预期的属性变化。
单目标分子操控
分子操控任务旨在限定优化后分子与原分子的相似度的情况下,探索目标属性最高的分子。
实验表明ChemFlow及相关基于流的方法在多种相似度约束下都取得了较好的优化效果,尤其是在中等约束(δ = 0.2, 0.4)时,表现出较高的成功率和更好的优化。同时,基于福克-普朗克方程流约束的生成方法在所有相似度约束下都获得了最高的成功率。
多目标分子操控
多目标操控任务更加具有挑战性,因为需要在多个属性之间进行权衡和平衡。ChemFlow通过引入多目标的损失函数,以及在向量场的学习过程中平衡各个目标,成功地在多个属性之间取得了平衡。
实验结果显示,ChemFlow在多目标优化任务中,同样表现出色,能够生成在各个属性上均具有良好表现的分子。
此外,作者还为ChemFlow准备了可互动的分子设计接口,供感兴趣的读者把玩。
Demo链接:https://colab.research.google.com/drive/1QAy_QoEnDRaiLF6kJ6RyhuGx1qCJXYKm?usp=sharing
结论与展望
ChemFlow是一个基于流学习的分子生成模型架构,通过在潜在空间中学习向量场,实现了对化学空间的高效探索。新的框架引入动力系统的视角,统一了之前的方法,并展示了在分子操控和优化任务中的性能和潜力。
未来,相信随着采用更大的训练数据集,更强大的生成模型和更多实际应用的探索,ChemFlow将在分子科学、药物设计和材料发现等领域带来新的机遇,促进化学空间探索的高效化和智能化!