Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

分子特性预测新框架来了!浙大侯廷军团队、匹兹堡大学联合提出跨通道学习,各大基准表现亮眼

图片

编辑 | 萝卜皮

可靠的分子特性预测对于各种科学研究和工业应用(例如药物研发)至关重要。

然而,由于数据稀缺,加上物理化学和生物特性与传统分子特征化方案之间的高度非线性因果关系,使得开发稳健的分子机器学习模型变得异常复杂。

匹兹堡大学(University of Pittsburgh)与浙江大学侯廷军团队合作开发了一种多通道预训练框架,可以稳健学习利用化学知识。

它利用分子内的结构层次,通过跨通道的不同预训练任务嵌入它们,并在微调期间以特定于任务的方式聚合通道信息。

该方法在各种分子特性基准中表现出了竞争力,并在特别具有挑战性且普遍存在的场景(如活性悬崖)中具有强大的优势。

该研究以「Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation」为题,于 2024 年 1 月 6 日发布在《Nature Communications》。

图片

自监督学习(SSL)已成为一种流行的解决方案,它利用大规模、未注释的分子数据来学习化学空间的基础表征,这可能有利于下游任务。

然而,现有的分子 SSL 方法在很大程度上忽视了化学知识,包括分子结构相似性、支架组成以及在化学空间中操作时分子特性的上下文相关方面。它们还很难学习结构-活性关系中的细微变化。

当前的挑战

具体来说,现有方法中的两个主要缺点:

首先,在对比学习中,语义相似/不相似(即正/负)样本的传统公式并不适合分子图。大多数图对比方法通过图扰动(例如节点/边的添加/删除)生成正样本。但是,当应用于分子图时,化学有效性可能很容易受到质疑。

分子还可能通过扰乱重要基序(例如,破坏芳香环)而失去基本特征,从而将“语义”转移得很远。负样本(即不同的分子)通常被同等对待,这本质上忽略了分子结构关系和特定分子成分的存在。

其次,几乎所有现有的工作都试图学习一个与上下文无关的分子表征空间,目的是可以使它推广到各种应用中。然而,这与分子特性通常与环境相关的事实相矛盾,无论是从物理角度(例如周围环境)还是生物角度(例如与蛋白质的相互作用)。

换句话说,相同的 SSL 任务是否能够在微调中与具有不同特性的各种下游任务很好地保持一致仍不确定,从而导致学习差距。

多通道学习新方法

为了应对上述挑战,匹兹堡大学与浙江大学的研究人员提出了一个用于分子表征学习的提示引导多通道学习框架。k 个通道中的每一个由特定的提示标记引导,负责学习一个专用的 SSL 任务。

本质上,预训练模型能够学习 k 个不同的表征空间。在微调过程中,提示选择模块将 k 个表征聚合为一个复合表征,并将其用于下游分子特性预测。这涉及确定哪个信息通道与当前应用最相关,从而使表征依赖于上下文。

同时,研究人员设计了预训练任务以形成从全局视图到分子结构局部视图的插值。除了利用全局分子对比学习和局部上下文预测之外,他们还引入了支架对比距离的任务,强调了支架在影响分子特征和行为方面的基本作用。

由于支架通常被视为新化合物设计的起点,支架距离旨在将具有相似支架(通过支架不变扰动生成)的分子映射到表征空间中更近的位置。此外,它还会将具有不同骨架的分子分开,其中距离边距是根据结构组成差异自适应计算的。

该框架主要包含三个主要部分,不同于传统的分子预训练-微调范式:(1)提示引导的多通道学习,(2)具有自适应边距的对比学习,以及(3)支架不变的分子扰动。

图片

图示:框架概述。(来源:论文)

整体框架使用 ZINC15 进行预训练,并在 MoleculeNet5 中的 7 个分子特性预测任务和 MoleculeACE 中的 30 个结合效力预测任务上进行评估。

通过学习利用来自不同通道的信息来应对不同的应用,该方法在两个基准测试中都超越了各种表征学习基准。更重要的是,新方法被证明能够更有效地应对活性悬崖的挑战,而竞争方法更容易受到负迁移的影响,从而导致性能大幅下降。

这表明,即使在预训练之后,这些方法可能仍然更多地依赖于表面模式,或者在微调过程中更容易受到知识遗忘的影响,从而导致它们难以解决需要对化学知识有细致理解的挑战性问题。

相反,该框架学习到的表征在微调过程中表现出了更强的保留预训练知识的能力,与其他基线相比,提供了更好的可转移性和稳健性。案例研究表明,即使仅依赖拓扑信息,该方法也有潜力识别导致活动悬崖的关键模式。

图片

图示:表征空间探测。(来源:论文)

局限性

当然,也存在一些局限性。该框架的一个限制是需要更有效的提示权重优化机制。使用粗糙度指数初始化提示权重可能会导致性能不佳。由于粗糙度指数是针对整个化学空间的全局 QSPR 指标,因此它不考虑训练集和测试集之间的任何分布变化。

对于其他 QSPR 测量(例如 SALI、SARI),情况也是如此。因此,在指定分割下,最终表征性能可能与初始粗糙度值的相关性较低。

图片

图示:结合效力预测。(来源:论文)

未来研究

未来研究有几个有趣的方向。一个有希望的方向是将不同的输入表征形式纳入框架。仅通过利用拓扑分子结构,该模型无法区分具有不同构象(例如,功能基团的方向或原子的手性)的分子成分,这可能会显著改变生化行为。

此外,还有其他先进的数据驱动技术可用于研究结构-活性关系 (SAR),这些技术可能与这里的框架兼容。

如,Manelfi 的《Molecular Anatomy》认为,从支架碎片化和抽象的网络聚类可以实现高质量的 SAR 分析。此类研究旨在将化学信息学知识转移到机器学习模型中,从而有可能提高模型的可解释性和稳健性。

更重要的是,该方法除了对药物发现具有直接影响,其分子表征稳健性可以进一步揭示其在化学其他子领域(如材料科学和环境化学)中应用的巨大潜力。

论文链接:https://www.nature.com/articles/s41467-024-55082-4 

理论药物分子科学AI for Science
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

负迁移技术

负迁移一般是指一种学习对另一种学习起干扰或抑制作用。负迁移通常表现为一种学习使另一种学习所需的学习时间或所需的练习次数增加或阻碍另一种学习的顺利进行以及知识的正确掌握。

推荐文章
暂无评论
暂无评论~