Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

量子级精度,静态到动态,微软蛋白MD模拟系统登Nature

图片

编辑 | KX

生物世界的本质在于分子及其相互作用的不断变化。了解生物分子的动力学和相互作用对于破译生物过程背后的机制,以及开发生物材料和药物至关重要。

正如诺贝尔物理学奖得主理查德·费曼(Richard Feynman)的名言:「所有生物体的行为都可以通过原子的颤动和摆动来理解。」然而,通过实验捕捉这些真实的运动几乎是不可能的。

近年来,以 AlphaFold 和 RoseTTAFold 为代表的深度学习方法,在预测静态晶体蛋白质结构方面已经达到了实验精度,相关研究人员获得了 2024 年诺贝尔化学奖。然而,以原子分辨率准确表征动力学仍然更具挑战性,尤其是当蛋白质发挥作用并与其他生物分、药物分子相互作用时。

经典分子动力学(MD)模拟速度快,但缺乏化学准确性。密度泛函理论(DFT)等量子化学方法可以达到化学精度,但无法扩展到大型生物分子。

MD 模拟用于模拟生物分子的时间相关运动。如果你将蛋白质想象成时钟中复杂的齿轮,那么微软研究院科学智能中心开发的从头算精度的生物分子模拟方法 AI2BMD,不仅会将它们捕捉到位,还会观察它们的旋转,揭示它们的运动如何驱动维持生命运转的复杂过程。

相关研究于 11 月 6 日刊登在《Nature》上。

图片

论文链接:https://www.nature.com/articles/s41586-024-08127-z

基于 AI 的从头算生物分子动力学系统

AI2BMD 是一种基于 AI 的从头算生物分子动力学系统。AI2BMD 可以以近似从头算的精度(即量子级的精度),高效地对各类蛋白质进行了全原子模拟仿真。

与密度泛函理论相比,它将计算时间缩短了几个数量级。最新发现可以解锁生物分子建模的新功能,特别是对于需要高精度的过程,例如蛋白质-药物相互作用。

图片

图 1:AI2BMD 流程图。

AI2BMD 采用一种设计新颖的可通用蛋白质碎片化方法,将蛋白质分割成重叠单元,从而创建一个包含 2000 万个快照的数据集,这是 DFT 级别有史以来最大的数据集。基于微软之前设计的通用分子几何建模基础模型 ViSNet,并将其纳入 PyTorch geometry 库。

研究人员使用机器学习训练了 AI2BMD 的势能函数。然后由高效的 AI2BMD 模拟系统执行模拟,其中在每个步骤中,基于 ViSNet 的 AI2BMD 势能以从头算精度计算蛋白质的能量和原子力。通过动力学和热力学的综合分析,AI2BMD 与湿实验室数据表现出更好的一致性。

推进生物分子 MD 模拟

AI2BMD 在以下方面代表了 MD 模拟领域的重大进步:

(1)从头算精度:引入了一种可推广的「机器学习力场」,即原子和分子之间相互作用的机器学习模型,用于从头算精度的全原子蛋白质动力学模拟。

图片

图 2:AI2BMD 与分子力学(MM)对不同蛋白质的能量计算误差的评估。(来源:论文)

(2)解决泛化问题:首次解决了机器学习力场模拟蛋白质动力学的泛化难题,为多种蛋白质提供了稳健的从头算 MD 模拟。

(3)普遍兼容性:AI2BMD 将量子力学(QM)建模从小的局部区域扩展到整个蛋白质,而无需任何关于蛋白质的先验知识。这消除了蛋白质 QM 和 MM 计算之间潜在的不兼容性,并将 QM 区域计算速度提高了几个数量级,使全原子蛋白质的近乎从头算计算成为现实。因此,AI2BMD 为众多下游应用铺平了道路,并为表征复杂的生物分子动力学提供了新的视角。

(4) 速度优势:AI2BMD 比 DFT 和其他量子力学快几个数量级。它支持超过 1 万个原子的蛋白质的从头算计算,使其成为多学科领域中最快的 AI 驱动 MD 模拟程序之一。

图片

图 3:AI2BMD、DFT 和其他 AI 驱动的仿真软件之间的时间消耗比较。

(5)多样化构象空间探索:对于 AI2BMD 和 MM 模拟的蛋白质折叠和去折叠,AI2BMD 探索了 MM 无法探测到的更多可能的构象空间。因此,AI2BMD 为研究药物-靶标结合过程中的柔性蛋白质运动、酶催化、变构调控、内在无序蛋白等提供了更多的机会,更好地与湿实验室实验相结合,为生物机制检测和药物发现提供更全面的解释和指导。

图片

图 4:AI2BMD 从未折叠结构开始折叠 Chignolin 蛋白质,能量误差小于 MM,并且探索了更多 MM 无法检测到的构象区域。

(6)实验一致性:AI2BMD 优于 QM/MM 混合方法,并且在不同的生物应用场景中与湿实验室实验表现出高度一致性,包括 J 偶联、焓、热容量、折叠自由能、熔化温度和 pKa 计算。

展望未来

在生物分子模拟中实现从头算精度具有挑战性,但对于理解生物系统的奥秘以及设计新的生物材料和药物潜力巨大。这一突破证明了 AI for Science 的远见,即利用人工智能的能力革新科学探索。AI2BMD 旨在解决机器学习力场应用中关于准确性、稳健性和泛化的局限性。AI2BMD 通过考虑蛋白质的基本结构,即氨基酸的延伸,在模拟各种蛋白质系统方面提供了通用性、适应性和多功能性。这种方法增强了能量和力的计算以及动力学和热力学性质的估计。

AI2BMD 的一个关键应用是它能够执行高精度的虚拟筛选以发现药物。2023 年,在首届全球 AI 药物开发竞赛上,AI2BMD 取得了突破,预测了一种与 SARS-CoV-2 主要蛋白酶结合的化合物。它的预测精度超越了所有其他竞争对手,稳居第一,并展示了其在加速现实世界药物发现工作方面的巨大潜力。

自 2022 年以来,微软研究院还与全球健康药物研发中心 (GHDDI) 合作,应用 AI 技术设计药物,用于治疗影响中低收入国家 (LMIC) 的疾病,例如结核病和疟疾。现在,微软与 GHDDI 密切合作,利用 AI2BMD 和其他 AI 功能来加速药物发现过程。

AI2BMD 不仅推进了对科学问题的研究,还促进了药物发现、蛋白质设计和酶工程等领域的新的生物医学研究。

参考内容:https://www.microsoft.com/en-us/research/blog/from-static-prediction-to-dynamic-characterization-ai2bmd-advances-protein-dynamics-with-ab-initio-accuracy/

理论微软蛋白质生物学AI for Science
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

量子力学技术

量子力学(Quantum Mechanics),为物理学理论,是研究物质世界微观粒子运动规律的物理学分支,主要研究原子、分子、凝聚态物质,以及原子核和基本粒子的结构、性质的基础理论。

推荐文章
暂无评论
暂无评论~