Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

高精度预测蛋白构象变化,中国科大、上科大通用深度学习模型

图片

编辑 | KX

预测蛋白质构象变化是计算生物学和人工智能领域的一大挑战。主流的 AlphaFold 等算法可以高通量预测蛋白质的静态结构,但对蛋白质构象变化预测却束手无策。

为了解决这个问题,中国科学技术大学和上海科技大学的研究人员,提出了一种新颖的深度学习策略,即利用高通量生物物理采样来规避与蛋白质构象转变相关的数据匮乏。

研究人员将分子动力学模拟与增强采样方法相结合,创建了一个大规模数据库。研究模拟了 2635 种已知两种稳定状态的蛋白质的构象变化,并收集了每条转变途径的结构信息。利用这个数据库,开发了一个能够预测给定蛋白质转变途径的通用深度学习模型。

该模型对不同序列长度(从 44 到 704 个氨基酸)的蛋白质表现出普遍的稳健性,并适应不同类型的构象变化。在几个系统中,预测和实验数据结果高度一致,并成功地应用该模型来识别一个重要生物系统——人类 β-心脏肌球蛋白中的一种新的变构调控。

这些结果证明了该模型在揭示蛋白质构象变化本质方面的有效性。

相关研究以「Exploring Protein Conformational Changes Using a Large-Scale Biophysical Sampling Augmented Deep Learning Strategy」为题,发表在《Advanced Science》上。

图片

论文链接:https://doi.org/10.1002/advs.202400884

当前局限于蛋白质静态结构预测

AlphaFold 和 RoseTTAFold 等致力于预测蛋白质的静态结构,但并未解决大多数蛋白质在发挥其生物学作用时所经历的动态构象变化。

这些转变对于理解从酶活性到信号转导的广泛生物过程至关重要。然而,缺乏中间状态的结构数据阻碍了对这些转变的预测。此外,现有模型的过渡态自由能垒较高,使得准确预测更具挑战性。

现有的描述蛋白质构象转变的模型包括基于弹性网络的正常模式分析,以及将弹性网络与分子动力学模拟相结合的混合模型。这些方法适用于相当简单的构象运动,但无法解释在较大的蛋白质中发现的复杂和巨大的变化。

最近,深度学习方法将蛋白质结构映射到低维潜在空间。然而,这些模型依赖于两种状态之间的线性路径,这不适用于复杂的非线性转换,例如倍数切换。更重要的是,高数据需求和低数据效率,以及阻碍实时可扩展应用的计算成本,使得这些方法本身无法令人满意。

模拟 2635 种蛋白质的构象变化

深度学习在预测静态蛋白质结构方面的成功启发,研究人员现在正在积极探索其他旨在预测蛋白质构象变化的深度学习算法。其主要挑战在于表征不同构象转变的训练数据有限。

在此,中科大团队采取了更直接的方法来弥补数据短缺的问题。通过结合分子动力学模拟和增强采样方法,广泛模拟了 2635 种蛋白质的构象变化,其中包含两种实验确定的状态,即单状态 (SS) 和多状态 (MS) ,并直接获得了组成转换途径的结构。

SS 和 MS 蛋白质数据集的创建涉及对蛋白质数据库 (PDB) 中的结构进行全面搜索和比较。

图片

图示:创建单状态 (SS) 和多状态 (MS) 蛋白质数据集。A) 数据集创建的工作流程。B) MS 数据集中四个类别的统计分析。(来源:论文)

SS 数据集共包含 3454 个条目,包括在实验研究中观察到的具有高度收敛构象的蛋白质。相比之下,MS 数据集包含 2635 种蛋白质(每种蛋白质在 PDB 中都有两种结构),这些蛋白质表现出显著的构象变化,定义为均方根偏差 (RMSD) >5 Å。

该数据集可进一步分为四个子类:刚体结构域移动(rigid-body domain movement)、有限的结构重排(limited structural rearrangement)、折叠-展开切换(fold-unfold switches)、全局折叠变化(global fold changes )。

高精度预测蛋白转变途径的通用 AI 模型

该数据集使用一种称为 PATHpre 的整体深度学习模型,可以高精度地预测导致构象转变的结构途径。

PATHpre 中 HESpre 模块的核心创新在于预测转变途径中高能状态的性能。所提出的模型对不同构象的蛋白质具有极大的通用性。这意味着它对复杂系统中的动力学行为建模做出了巨大贡献,在方法级别应用了可扩展性和数据效率。

图片

图示:用于预测多构象蛋白质过渡途径的神经网络架构。(来源:论文)

在 PATHpre 方法中,通过卷积神经网络预测应用两种构象状态系统中的距离矩阵,以获得这些构象状态之间的高能状态。核心模块名为 HESpre,目的是预测高能状态下的结构信息。然后迭代使用该模块来预测整个途径。

研究对各种蛋白质进行了交叉验证,该模型在所有步骤中都实现了强大的 Pearson 相关性和低平均绝对误差;因此,它在结构类别中非常通用。

图片

图示:应用 PATHpre 研究两种蛋白质的构象变化:A) 腺苷酸激酶和 B) 30S 核糖体蛋白 S7。(来源:论文)

PATHpre 通过与一系列蛋白质上存在的实验和模拟数据显示出强相关性,在蛋白质转变途径非常高的预测中很准确。评估还表明,PATHpre 可以稳健地捕获从简单到复杂的构象变化,并且它与不同长度的序列以及结构复杂性保持一致。

重要的是,它通过匹配实验自由能景观,准确预测了单个蛋白质(如腺苷酸激酶和 30S 核糖体蛋白 S7)的转变途径,并且在具有挑战性的条件下,比传统的混合方法表现更好。PATHpre 的预测与已知结构一致,其对折叠转变蛋白质中精细中间状态的映射证实了其广泛的适用性和可靠性,可以捕获广泛的蛋白质构象转变。

蛋白质构象变化新见解

与其它几种同类蛋白质构象变化深度学习模型相比。PATHpre 模型具有以下特点:

首先,PATHpre 使用来自模拟的转变数据进行训练,消除了转变路径在潜在空间中呈线性的假设。

其次,模型是适用于所有蛋白质的通用模型,无需针对每种蛋白质进行自定义再训练。

第三,模型专注于结构明确的蛋白质的大构象变化(RMSD > 5Å),而不是内在无序的蛋白质或局部变化相对较小的蛋白质,这在药物设计中很重要。

该研究标志着 AI 驱动的蛋白质建模取得了重大进展,为预测蛋白质构象变化提供了一种数据高效且可扩展的方法。该模型将进一步提高科学家对蛋白质构象变化的理解。

数据库和源代码地址:https://github.com/qwang897/PATHpre

参考内容:https://www.marktechpost.com/2024/11/03/a-study-on-protein-conformational-changes-using-a-large-scale-biophysical-sampling-augmented-deep-learning-strategy/

理论
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

弹性网络技术

在统计学中,特别是在拟合线性或逻辑回归模型时,弹性网络是一个正则回归方法,线性组合了套索和脊线方法的L1和L2惩罚。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

推荐文章
暂无评论
暂无评论~