编辑 | 萝卜皮
几何深度学习(GDL)基于包含和处理对称信息的神经网络架构。GDL 为依赖于具有不同对称性和抽象级别的分子表示的分子建模应用程序带来了希望。
苏黎世联邦理工学院的研究人员对分子 GDL 进行了结构化和统一概述,重点介绍了其在药物发现、化学合成预测和量子化学中的应用。它包含对 GDL 原理的介绍,以及相关的分子表示,例如分子图、网格、曲面和字符串,以及它们各自的属性。讨论了分子科学中 GDL 当前面临的挑战,并尝试预测未来的机会。
该综述以「Geometric deep learning on molecular representations」为题,于 2021 年 12 月 15 日发布在《Nature Machine Intelligence》。
深度学习的最新进展,即基于神经网络的人工智能(AI)的一个实例,已经在分子科学领域取得了开创性的应用,例如药物发现、量子化学和结构生物学。深度学习的两个特点使其在应用于分子时很有希望。
首先,深度学习方法可以处理「非结构化」数据表示,例如文本序列、语音信号、图像和图形。这种能力似乎对分子系统特别有用,化学家已经开发了分子表示,可以在不同的抽象级别捕获分子特性。
其次,深度学习可以从输入数据中进行特征提取(或特征学习);也就是说,从输入表示中生成数据驱动的特征。
深度学习的这两个特征补充了「经典」机器学习应用程序,例如定量结构-活性关系(QSAR),其中分子特征(即「分子描述符」)使用基于规则的算法进行先验编码。
多层神经网络从非结构化数据中学习并提取高阶分子特征的这种能力已经导致深度学习在分子科学中的大量应用。
图示:所选分子的示例性分子表示。(来源:论文)
几何深度学习(GDL)是人工智能的一个新兴概念。GDL 是一个总称,涵盖了将神经网络推广到欧几里德和非欧几里德域的新兴技术,例如图、流形、网格或字符串表示。一般来说,GDL 包括结合几何先验的方法,即输入信号的结构空间和对称特性的信息,例如分子结构的表示。利用几何先验来提高模型的质量,例如其预测准确性。尽管 GDL 已越来越多地应用于分子建模,但其在该领域的全部潜力仍未开发。
本综述的主要目的是(1)对 GDL 在分子系统中的突出应用提供结构化和统一的概述,(2)描述该领域的主要研究方向,以及(3)尝试对 GDL 的潜在未来影响进行批判性预测。突出了三个应用领域,即药物发现、量子化学和计算机辅助合成规划(CASP)。
GDL 的原则
GDL 一词是在 2017 年创造的。虽然 GDL 最初用于应用于非欧数据的方法,但它现在扩展到所有包含几何先验的深度学习方法。对称性是 GDL 中的一个关键概念,因为它包含系统在操作(转换)方面的属性,例如欧几里得群 E(3) 所涵盖的属性。分子的其他相关转换包括尺度分离(例如,网格的粗粒度和细粒度)或排列(即,分子中原子的不同排序)。
对称性通常根据不变性和等方差性进行重新定义,以表达任何数学函数相对于作用对称群的变换 T(例如旋转、平移、反射或置换)的行为。这里,数学函数是应用于给定分子输入 X 的神经网络 F。F(X ) 可以在其中对 T 进行等变、不变或非等变变换。
等方差和不变性的概念也可以用于参考从给定的分子表示 (X) 获得的分子特征,这取决于它们在对 X 应用变换时的行为。神经网络提取的分子特征的对称性取决于输入分子表示和所用神经网络的对称性。
许多相关的分子特性(例如,平衡能、原子电荷或物理化学特性,如渗透性、亲油性或溶解性)对于某些对称操作是不变的。因此,对于化学应用,设计在预定义对称群作用下等变变换的神经网络是可取的。
如果目标特性在分子对称变换后发生变化(例如,在分子反转时改变的手性特性或在分子旋转时改变的矢量特性),则会出现例外情况。在这种情况下,等变神经网络的归纳偏差(学习偏差)将不允许对对称变换的分子进行区分。
虽然神经网络可以被视为通用函数逼近器,但结合先验知识(如合理的几何信息)已经发展成为神经网络建模的核心设计原则。通过结合几何先验,GDL 可以提高模型的质量,并绕过与将数据强制转换为欧几里得几何(例如,通过特征工程)相关的几个瓶颈。此外,GDL 提供了新的建模机会,例如低数据机制中的数据增强。
图示:分子图的深度学习。(来源:论文)
分子 GDL
GDL 在分子系统中的应用具有挑战性,部分原因是有多种有效的方式来表示相同的分子实体。分子表示可以根据它们不同的抽象级别以及它们捕获的物理化学和几何方面进行分类。重要的是,所有这些表示都是同一现实的模型,因此适用于某些目的,而不适用于其他目的。GDL 提供了对同一分子的不同表示进行试验的机会,并利用其内在的几何特征来提高模型的质量。此外,由于其特征提取(特征学习)能力,GDL 一再证明在为手头的任务提供相关分子特性的见解方面很有用。
论文中,作者描述了最流行的分子 GDL 方法及其在化学中的应用,根据用于深度学习的各自分子表示进行分组:分子图和点云、网格、表面和字符串符号。
图示:化学语言建模。(来源:论文)
总结
化学中的 GDL 使研究人员能够利用非结构化分子表示的对称性,从而提高用于分子结构生成和性质预测的计算模型的灵活性和多功能性。
这些方法补充了基于分子描述符或其他人工工程特征的化学信息学。对于通常以需要工程规则为特征的建模任务(例如,从头设计的分子构建和 CASP 的反应位点规范),GDL 扩展了现有的方法库。在已发表的 GDL 应用程序中,每个分子表示都显示出特征性的优势和劣势。
SMILES 等分子串已被证明特别适合生成式深度学习任务,例如从头设计和 CASP。这一成功可能归功于这种化学语言的直接语法,它促进了下一个标记和序列到序列的预测。对于分子特性预测,SMILES 字符串可能由于其非单一性而受到限制。
分子图已被证明可用于属性预测,部分原因是它们的人类可解释性以及易于包含所需的边缘和节点特征。3D信息的结合(例如,E(3)- 不变或 SE(3)/E(3)- 等变信息传递)有助于量子化学相关建模,而在药物发现应用中,这种方法往往无法明显平衡模型增加的复杂性。E(3) 等变 GNN 也已应用于构象感知从头设计,但正在等待实验验证。
分子网格长期以来一直是大型静态分子系统(例如蛋白质)学习任务的标准 3D 表示。它们以用户定义的分辨率(体素密度)和输入网格的欧几里得结构捕获信息的能力使 3D CNN 高效并适用于蛋白质和其他大分子。然而,最近在 Transformer 网络、GNN 和测地线 CNN 方面取得的进展已经使模型达到了最先进的性能。
最后,分子表面是目前 GDL 的前沿。我们期待在不久的将来 GDL 在分子表面上有许多有趣的应用。
展望
为了进一步推动 GDL 在化学中的应用和影响,需要对算法复杂性、性能和模型可解释性之间的最佳权衡进行评估。这些方面对于调和「两个 QSAR」以及连接计算机科学和化学界至关重要。作者鼓励 GDL 从业者尽可能在他们的模型中包含可解释性的方面(例如,通过可解释的 AI),并与领域专家进行透明的交流。领域专家的反馈对于开发新的「化学感知」架构和实现具体的前瞻性应用也至关重要。
GDL 在分子特征提取方面的潜力尚未得到充分探索。几项研究表明,与经典分子描述符相比,学习表征具有优势,但在其他情况下,GDL 未能兑现其在卓越学习特征方面的承诺。为下游应用程序推导有用的数据驱动特征可能具有挑战性,因为它需要算法和各自应用领域的专业知识,有利于跨学科合作。虽然有评估机器学习模型用于属性预测和分子生成的基准,但目前还没有这样的框架来系统评估 AI 学习的数据驱动特征的有用性。这样的基准和系统研究,包括前瞻性应用,对于获得对深度表征学习的直接评估是必不可少的。此外,研究学习特征与输入分子的物理化学和生物学特性之间的关系将增强 GDL 的可解释性和适用性,以模拟结构 - 功能关系。
与常规执行适用性域(即模型预测被认为可靠的化学空间区域)评估的传统 QSAR 方法相比,当代 GDL 研究缺乏这样的评估。这种明显的差距可能构成在前瞻性研究中更广泛使用 GDL 方法的限制因素之一。
对模型的适用范围进行彻底评估将有助于降低预测不可靠的风险,例如,对于具有与训练数据不同的作用机制、官能团或物理化学特性的分子。建议开发用于适用性领域评估的「几何感知」方法。
另一个机会是利用较少探索的 GDL 分子表示。例如,分子的电子结构在 CASP、分子性质预测和大分子相互作用(例如蛋白质-蛋白质相互作用)预测等任务中具有潜力。尽管准确的统计和量子力学模拟在计算上是昂贵的,但在大型量子数据集合上训练的现代量子机器学习模型,允许以高精度更快地访问量子化学特性。这方面可以使广泛的分子数据集的量子和电子特征化用作感兴趣任务的输入分子表示。
深度学习可以应用于多种生物和化学表示。相应的深度神经网络模型有可能增强人类的创造力,为以前不可行的科学研究铺平道路。
然而,研究只是探索了冰山一角。将深度学习融入分子科学的最重要催化剂可能是学术机构和其他组织促进跨学科教育、协作和交流。只有对化学和计算机科学有深刻的理解,以及开箱即用的思维和协作创造力,才有可能摘到「悬而未决的果实」。在这样的环境中,我们期望分子 GDL 能够增加学术界对分子系统和生物现象的理解。
论文链接:https://www.nature.com/articles/s42256-021-00418-8