Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Nature子刊,川大团队机器学习结合MD,预测蛋白质变构,助力药物研发

图片

编辑 | 萝卜皮

变构药物为现代药物设计提供了一条新途径。然而,识别隐蔽的变构位点是一项艰巨的挑战。

四川大学蒲雪梅教授、邵振华研究员团队提出了一种先进的计算流程,结合残基驱动的混合机器学习模型(RHML)和分子动力学(MD)模拟,成功识别出了变构位点、变构调节剂,并揭示了它们的调控机制。

具体而言,在 β2 肾上腺素能受体(β2AR)中,团队发现了位于残基 D79^2.50、F282^6.44、N318^7.45和S319^7.46 附近的一个新的变构位点及潜在调节剂 ZINC5042。通过分子力学/广义 Born 表面积(MM/GBSA)和蛋白质结构网络(PSN)的分析,进一步揭示了变构效力及调控机制。

该研究以「Integrative residue-intuitive machine learning and MD Approach to Unveil Allosteric Site and Mechanism for β2AR」为题,于 2024 年 9 月 16 日发布在《Nature Communications》。

图片

变构作用是一种关键的生物调控机制,涉及远程位点的结构和动态变化,广泛存在于各种生物过程中。变构药物通过非竞争性结合调节蛋白活性,具有更高的选择性和更低的毒性,已用于治疗癌症、神经精神疾病和免疫疾病。

虽然 MD 模拟可帮助识别隐匿的变构位点,但其数据量大,难以手动分析,并可能受人为偏见影响。为此,结合机器学习可提高识别变构位点的效率,并为药物开发提供新方法,尤其是针对 GPCR 类药物,如 β2AR 的变构位点识别,具有重要意义。然而,现有方法仍存在局限性,需要进一步发展无偏通用的识别方法。

在最新的研究中,四川大学蒲雪梅、邵振华团队结合无监督聚类和可解释的深度学习多分类模型,探索了一种残差直观混合机器学习(称为 RHML)框架。

通过该框架,研究人员可以解决类别标签缺失的问题,实现具有残基级可解释性的准确分类,从而识别涉及变构位点的重要残基。

图片

图示:框架概述。(来源:论文)

具体来说,首先进行广泛的高斯加速分子动力学 (GaMD) 模拟以增强采样,从而构建足够的构象空间。利用构象空间,构建了一个残基直观混合机器学习(RHML)框架,该框架由无监督聚类和基于可解释卷积神经网络(CNN)的多分类器组成。

使用 RHML,研究人员可以确定最佳簇数(标签)和变构位点打开时的构象状态。然后,通过 FTMap 结合 RHML 的 LIME 解释器识别变构位点。根据识别的变构位点,从两个化合物数据集中筛选出潜在的变构调节剂。

通过常规 MD(cMD)、结合能分析、结构分析和调控通路分析进一步探讨变构位点/药物的调控作用及其调控通路。

最后,通过 cAMP 积累试验、β-arrestin 募集试验和定点诱变实验进行实验验证。总的来说,这项工作涉及六个系统、15 μs GaMD 模拟和 22.5 μs cMD 模拟。

在确定假定的变构位点和筛选相关的调节剂之后,研究人员进一步探究它们与正构位点和活性区域等功能域的通信。

图片

图示:可解释的基于 CNN 的多分类模型的架构。(来源:论文)

该团队的目标是进一步预先评估作为变构位点/调节剂的潜力并揭示它们的调控机制,这对于确保预测成功率和合理设计蛋白质的变构性至关重要,但在以前的变构药物设计方法中经常被忽视。

为了验证该识别策略的有效性,研究人员选取 G 蛋白偶联受体(GPCR)家族中的β2肾上腺素受体(β2AR)作为研究对象,发现了 β2AR 的一个变构位点和一个负变构调节剂(ZINC5042),并通过细胞功能实验对其进行了验证。

图片

图示:变构位点和药物筛选策略。(来源:论文)

得益于技术优势,RHML 揭示了 β2AR 和其他 GPCR 中以前未报道过的变构位点。额外的变构位点位于残基 D79^2.50、F282^6.44、N318^7.45 和 S319^7.46 周围,研究人员利用虚拟筛选发现了假定的变构调节剂 ZINC5042。

在大量 cMD 模拟、MM/GBSA 和 PSN 的帮助下,研究人员进一步探讨了变构位点/调节剂与正构位点/激动剂之间的通讯,这对于进一步估计变构潜力以提高变构位点/药物识别的成功率具有重要意义。

MM/GBSA 显示 ZINC5042 以负协同方式减弱正位激动剂与 β2AR 的结合。结构分析表明 ZINC5042 阻碍了钠离子结合口袋的坍塌和PIF基序向活性态的构象转变,从而驱动受体构象向非活性态转变。

PSN 表明变构调节剂 ZINC5042 结合会降低螺旋结构间的通讯,从而不利于激动剂刺激的激活信号传导。此外,还鉴定了一些重要的变构调节残基。

基于充分的计算证据,基于 Glosensor 的 cAMP 测定和定点诱变实验强有力地验证了对变构位点和负变构效应的计算预测,清楚地证实了所鉴定的关键残基 D79^2.50,F282^6.44,N318^7.45 和 S319^7.46 确实在结合变构调节剂和抑制正构激动剂诱导的活化信号传导中发挥重要作用,特别是对于 F282^6.44。

图片

图示:ZINC5042 的效力和变构位点的实验验证。(来源:论文)

总体而言,该识别流程解决了现有 ML 模型在 MD 构象分析中的局限性,包括最佳类别数、构象表示中的信息丢失和基于残基的预测结果解释。因此,RHML 能够对任何 MD 轨迹进行准确的构象分类和识别决定不同构象类别的重要残基。

该团队还上传了一个用户友好的残基直观混合机器学习框架代码。该代码提供可自定义的输入选项,自动生成可读的输出文件,其中包括簇类别和决定分类的重要残基。

图片

图示:RHML 获取。(来源:网页)

研究人员期望它将成为 MD 领域的一种有价值的工具,用于辅助变构位点识别和与构象分析相关的其他 MD 任务。

框架代码:https://github.com/chyannn06/RHML

论文链接:https://www.nature.com/articles/s41467-024-52399-y

理论
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

暂无评论
暂无评论~