Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

准确率84.09%,腾讯AI Lab发布Interformer,用于蛋白质-配体对接及亲和力预测,登Nature子刊

图片

编辑 | 萝卜皮

近年来,深度学习模型在蛋白质-配体对接和亲和力预测中的应用引起了越来越多的关注,而这两者都对基于结构的药物设计至关重要。

然而,许多此类模型忽略了复合物中配体和蛋白质原子之间相互作用的复杂建模,从而限制了它们的泛化和可解释性。

在最新的研究中,腾讯 AI Lab 的研究人员提出了 Interformer,这是一个基于 Graph-Transformer 架构的统一模型。

该模型旨在利用交互感知混合密度网络捕获非共价相互作用。该团队引入了负采样策略,有助于有效校正相互作用分布以进行亲和力预测。

这种方法可以通过准确模拟特定的蛋白质-配体相互作用来提高性能,且具备通用性。

该研究以「Interformer: an interaction-aware model for protein-ligand docking and affinity prediction」为题,于 2024 年 11 月 25 日发布在《Nature Communications》。

图片

在错综复杂的药物研发过程中,蛋白质-配体对接和亲和力预测任务多年来一直是药物发现过程中的重要组成部分。

蛋白质-配体对接是药物分子结构优化的关键任务,目的是预测配体(小分子)与蛋白质受体或酶结合时的位置和方向。

亲和力预测任务利用准确的结合姿势(蛋白质-配体结合复合物构象),提供配体与其目标蛋白质之间结合强度的计算估计,从而有助于筛选具有潜在亲和力的配体。

近年来,人们对使用深度学习 (DL) 方法进行分子建模的兴趣激增。比如科学家将对接视为生成建模问题,引入了 DiffDock,这是一种基于图神经网络 (GNN) 的模型,已在结合姿势生成方面建立了基准

然而,现有的深度学习模型往往忽视了蛋白质和配体原子之间非共价相互作用的建模,而这对于可解释性和泛化至关重要。

如图 1 左图所示,DiffDock 产生的对接构象与晶体结构非常相似,但无法捕捉非共价相互作用。此外,虽然传统的亲和力预测方法在晶体结构方面表现出色,但在处理不太精确的结合姿势时,其性能会急剧下降,这对实际应用构成了挑战。

图片

图 1:对接姿势中的非共价相互作用与现有和拟议方法的比较。(来源:论文)

新方法:Interformer

在最新的研究中,腾讯 AI Lab 的研究人员提出了 Interformer,这是一种计算 AI 模型,旨在缓解蛋白质-配体对接中的相互作用感知问题,并在实际应用中采用建设性学习进行亲和力预测。

首先,研究人员提出了一种相互作用感知混合密度网络 (MDN) 来模拟非共价相互作用,明确关注蛋白质-配体晶体结构中存在的氢键和疏水相互作用。如图 1 右图所示,Interformer 可以准确地产生结合姿势中的特定相互作用。

其次,团队提出了一个伪 Huber 损失函数,利用对比学习的能力来指导模型区分有利和不利的结合姿势。

第三,该模型基于 Graph-Transformer 框架,该框架在各种图表示学习任务中都表现出比基于 GNN 的模型更优的性能。

Interformer 的另一个优点是通过检查 MDN 的融合系数来解释蛋白质-配体相互作用的内部机制。

具体来说

Interformer 模型的架构灵感来自 Graph-Transformer,最初是为图表示学习任务而提出的。

图片

图 2:Interformer 架构概述。(来源:论文)

在第一阶段,该模型从晶体结构中获取单个初始配体 3D 构象和蛋白质结合位点作为输入。图形在各种方法中被广泛用于说明配体和蛋白质,如图 2a 所示,其中节点代表原子,边表示两个原子之间的接近度。

研究人员使用药效团原子类型作为节点特征,并使用两个原子之间的欧几里得距离作为边缘特征。这些药效团原子类型提供了必要的化学信息,从而使模型能够更好地理解特定的相互作用,例如氢键或疏水相互作用。

在第二阶段,对接流程如图 2b 所示,通过 Intra-Blocks 处理来自蛋白质和配体的节点特征和边缘特征。

Intra-Blocks 旨在通过捕获同一分子内的内部相互作用来更新每个原子的节点特征。这些更新后的节点特征随后输入到 Inter-Blocks,捕捉蛋白质和配体原子对之间的相互作用,进一步更新节点和边缘特征。

接着,通过交互感知的 MDN 预测每个蛋白质-配体原子对的四个高斯函数参数,并结合形成混合密度函数(MDF),用于估计蛋白质和配体原子之间最可能的距离。MDF 模型能够精确反映特定的相互作用,如氢键和疏水作用,从而生成更加符合自然晶体结构的对接姿势。

最后,所有蛋白质-配体对的 MDF 聚合后,通过蒙特卡洛采样方法生成前 k 个候选配体构象。

在第三阶段,姿势得分和亲和力预测管道如图 2c 所示。生成的对接姿势中蛋白质和配体原子之间的距离和特定相互作用更新了新的边缘特征。

然后通过块内和块间处理节点和边缘特征以创建隐式交互。虚拟节点通过自注意力机制收集有关绑定姿势的所有信息。

最后,虚拟节点的绑定嵌入被输入到亲和力和姿势层,以预测相应对接姿势的绑定亲和力值和置信姿势得分。

通过纳入不良姿势,对比性伪 Huber 损失函数可用于指导模型辨别姿势是好还是坏。训练目标可确保模型为不良姿势预测较低的值,为良好姿势预测较高的值。良好姿势与不良姿势之间的主要区别在于它们的相互作用。

此策略可帮助模型学习关键相互作用,而不是人工特征。研究人员将此特性称为 pose-sensitive,在现实世界的药物开发项目中表现出色。

性能评估

当使用两个广泛使用的基准对蛋白质-配体对接进行评估时,Interformer 在 Posebusters 基准上实现了 84.09% 的准确率,在 PDBbind 时间分割基准上实现了 63.9% 的准确率,且均方根偏差 (RMSD) 小于 2 Å,从而实现了 top-1 预测性能。

图片

图 3:对蛋白质-配体对接任务的评估。(来源:论文)

这一改进归功于该模型增强了捕捉配体和蛋白质之间非共价相互作用的能力,这对于产生不太模糊的构象至关重要,对于下游任务的成功执行至关重要。

此外,即使绑定姿势不太准确,该模型也能预测合理的亲和力值。团队内部真实世界基准的评估表明,该模型的性能与其他模型相当,证实了其姿势敏感和强大的泛化能力。

在应用于真实的内部药物管道时,研究人员成功鉴定出两个小分子,在各自的项目中,每个小分子的亲和力 IC50 值分别为 0.7 nM 和 16 nM,从而证明了其在推进治疗发展方面的实用价值。

这种方法使 Interformer 能够通过关注蛋白质和配体原子对之间的特定相互作用来区分不太准确和更有利的对接姿势。这种强大的功能使该模型能够增强在现实场景中预测的通用性。

图片

图 4:对蛋白质-配体亲和力预测任务的评估。(来源:论文)

在亲和力预测领域,Interformer 在四个内部真实世界亲和力基准上表现出持续的进步。Interformer 在两个内部药物开发流程中的进一步应用已成功在纳摩尔水平上识别出两种高效分子。

该研究展示了 Interformer 对计算生物学和加速药物设计过程的巨大潜力。

未来,研究人员的目标是将 Interformer 的应用扩展到更广泛的现实世界生物挑战中,并增强其对各种分子相互作用类型的性能,包括蛋白质-蛋白质和蛋白质-核酸相互作用。

理论蛋白质AI for Science腾讯AI Lab
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

欧几里得距离技术

在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。 使用这个距离,欧氏空间成为度量空间。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~