生命所必需的每一次基础生物学进展几乎都是由蛋白质带来的。蛋白质参与创建细胞和组织并保持着它们的形状;构成维持生命所需化学反应的催化酶;充当分子工厂、转运工具和马达;充当细胞通讯的信号和接收器等等。
蛋白质由很多氨基酸长链组成,通过折叠成精确的 3D 结构来完成无数的任务,这些结构控制着它们与其它分子互动的方式。蛋白质的形状决定了其功能以及它在疾病中的功能紊乱程度。阐明蛋白质的结构是所有分子生物学的核心,更是治疗患者、拯救生命、改变生活的医学发展的核心。
近年来,根据氨基酸序列预测蛋白质折叠结构方面的计算方法已经取得了很大进展。如果能够充分实现,这些方法可能会改变生物医学研究的方方面面。然而,现在的方法在可测定的蛋白质的大小和范围上是有限的。
最近,哈佛大学医学院 Blavatnik 研究所系统生物学家 Mohammed AlQuraishi 发布了一项新的研究,他根据氨基酸序列,利用深度学习实现了任意蛋白质 3D 结构的高效预测。在 4 月 17 日的 Cell Systems 期刊中,Mohammed AlQuraishi 详细介绍了这种通过计算确定蛋白质结构的新方法,利用该方法实现的准确率可媲美当前最佳方案,但速度提高了 100 万倍。
论文:End-to-end differentiable learning of protein structure
论文地址:https://www.biorxiv.org/content/biorxiv/early/2018/08/29/265231.full.pdf
项目地址:https://github.com/aqlaboratory/rgn
原论文表 2:蛋白质结构预测方法的训练和预测速度对比。
如上所示,AlQuraishi 提出的循环几何网络在预测速度上快了 6 到 7 个数量级。其中上表第一行是目前已经建立起来的复杂方法,这些方法严重依赖于模拟和采样。第二行对应于协同演化(co-evolution)的方法,它也会有一个学习过程。最后一行就是作者提出的一种端到端的可微分方法。
「蛋白质折叠是近半个世纪以来生物化学家研究的重要问题之一,此次提出的方法为解决这一问题提供了全新的思路,」AlQuraishi 说道。「现在我们有了一个探索蛋白质折叠的全新方法,我觉得我们现在的研究不过是冰山一角。」
AlQuraishi 研究的特点在于,一名埋头在哈佛医学院和波士顿生物医学社区丰富研究生态系统中的研究人员,居然能够在计算机科学最热门的领域里抗衡谷歌等巨头。——Peter Sorger
说起来简单
虽然成功率高,但利用物理工具来鉴别蛋白质结构的过程既昂贵又耗时,即使是使用现代技术(如低温电子显微镜)同样如此。因此,绝大多数蛋白质结构以及致病突变对这些结构的影响目前仍是未知的。
蛋白质折叠方式的计算方法有可能大大降低确定蛋白质结构的成本和时间。但经过近四十年的不懈努力,这个难题仍未解决。
可视化模拟 AlQuraishi 的蛋白质折叠深度学习方法。模型通过反复预测某个结构(彩色)并将其预测与真实结构(灰色)对比来实现自训练。对数千种已知蛋白质重复此步骤,模型在每次迭代中都会学习并提高自己的准确率。
蛋白质由 20 种不同的氨基酸组成。这些氨基酸就像字母表中的字母,组合成单词、句子、段落,产生了无数种可能的文本。然而,与字母不同,氨基酸是位于 3D 空间的物理存在。通常,蛋白质的各个部分在物理上非常接近,但在序列上却相隔很远,因为其氨基酸链形成了环、螺旋、折叠等不同形状。
AlQuraishi 表示,「这个问题引人注目的地方在于它说起来简单:挑一个序列,想办法弄清楚它的形状就可以了。蛋白质从一个非结构化的线开始,必须呈现 3D 形状,线可能折叠成的形状有很多种。许多蛋白质有上千个氨基酸长,其复杂性远远超过人类直觉甚至强大的计算机。」
做起来难
为了应对这一挑战,科学家利用氨基酸的特点,即它会在物理法则的约束下相互作用,从而寻找更具潜力的状态。目前最先进的算法通过超级计算机或众包计算来寻找蛋白质结构,它们基本上都是在模拟极其复杂的氨基酸物理相互作用。为了降低这些方法对大规模计算的需求,它们依赖于将新序列映射到预定义的模板,且这些蛋白质结构模板都是之前通过实验确定的。
其它如 DeepMind 的 AlphaFold 则采用了另一种方法,它利用深度学习进一步预测蛋白质结构。这类方法会分析大量的基因数据,其内在包含了蛋白质的设计蓝图,目前受到了极大的关注。
AlphaFold 是之前非常受关注的一项研究,它利用神经网络来预测氨基酸对之间的距离,以及连接它们的化学键之间的角度。AlphaFold 参加了 CASP 竞赛,它首次参赛就在 98 名参赛者中名列榜首,准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构,而同组比赛中获得第二名的参赛者仅准确预测出了 3 种。
然而,这些 AI 方法并不能仅基于蛋白质的氨基酸序列预测结构。这一点会限制 AlphaFold 等方法的能力,因为在没有先验知识的情况下它们很难决定蛋白质结构,其在演化独特的蛋白质或手工设计新蛋白质上能力有限。
针对这些问题,AlQuraishi 主要从四个核心概念出发构建新的解决方案。首先我们应该要使用循环神经网络编码蛋白质序列;其次通过扭转角度参数化局部蛋白质的结构,从而允许模型在不破坏共价化学性质的情况下对各种结构进行推理;再者,我们还应该通过循环几何单元耦合局部蛋白质结构和它的全局表征;最后,使用一种可微损失函数来捕捉预测结构与实际结构之间的差别。
端到端的可微分学习
为了开发新的方法,AlQuraishi 应用了一种名为端到端的可微分深度学习方法。本质上而言,可微分学习涉及到一种单独的强力数学函数:神经网络,通过神经元的前馈传播与反向传播,可微分学习能逐渐学习到各种「专业知识」。
神经网络这种函数能在极其复杂的特征空间上调整自身,以便精确地学习蛋白质序列与其结构之间的数学关系。AlQuraishi 就构建了一种名为循环几何网络(Recurrent Geometric Network)的深度学习模型,它侧重建模蛋白质折叠的关键特征。
循环几何网络
模型输入一个氨基酸序列和 PSSM(具体位置的评分矩阵)并输出一个 3D 结构。它由三个阶段组成:计算、几何建模和评估——因此将其称为循环几何网络(RGN)。
第一阶段由计算单元组成,对于每个残基位置(residue position),计算单元将关于氨基酸和 PSSM 的信息与来自相邻单元的信息整合。通过将这些单元放在循环双向拓扑结构中(图 2),对每个残基的计算整合了从残基上游和下游一直到 N-和 C-端的信息,覆盖了整个蛋白质。
原论文图 2:循环几何网络主要过程。
第二阶段由几何单元组成,该几何单元输入给定残基的扭转角和由其上游的几何单元产生的部分完成的骨干,并输出由一个残基延伸的新骨干,该骨干被输入至相邻的下游单元。最后的单元输出蛋白质的完整 3D 结构。
在模型训练期间,第三阶段使用基于距离的均方根误差(dRMSD)度量来计算预测结构和实验结构之间的误差。dRMSD 首先计算预测结构中所有原子和实验结构中所有原子的成对距离(分别计算),然后计算这些距离集合之间的均方根。
如上展示了循环几何网络模型如何计算氨基酸之间键的角度以及这些键周围的旋转角,获取这两个信息就可以采集蛋白质结构的几何形状。动画:Mohammed AlQuraishi。
对于每个氨基酸,模型预测连接其与相邻氨基酸的化学键最可能的角度。它还预测这些键周围的旋转角,这影响了蛋白质的任何局部在几何上与整个结构的关系。
这个过程会重复进行,每次计算都需要使用和提炼所有其它氨基酸的相对位置信息。一旦整个结构完成,模型会将预测结果与蛋白质的「标注真值」结构进行比较,以检查其预测准确率。
这整个过程在成千上万种已知的蛋白质中重复进行,模型在每次迭代中学习并提升其准确率。
新的前景
一旦其模型训练好,AlQuraishi 会测试它的预测能力,它们将该模型与近年来蛋白质结构预测关键评估(CASP)的其它方法进行了比较。CASP 是一个年度实验,它通过已经确定但未公开的蛋白质结构测试各种预测方法的能力。
他发现在没有预先设计的模板时,新模型在预测蛋白质结构方面远远优于其它方法,包括使用协同演化数据的方法。当预定义模板可用于预测时,新模型还是优于最佳方法之外的其它方法。
虽然提升并不大,但这种方法表示了一类新的蛋白质折叠预测方法,它与现有的方法是互补的关系。值得注意的是,新模型的预测速度比现有计算方法快 6 到 7 个数量级。训练模型可能需要数月,但一旦训练完成,预测新蛋白质结构可以在几毫秒内完成。这种加速在于深度网络是一种独立的数学函数,它只需要几千行代码而不是数百万行代码就能完成。
这种极速使得蛋白质预测变得更加简单,以前无法想象的应用也都会慢慢冒出来。AlQuraishi 表示:「新模型还没有立即用于新药开发或设计,因为它的准确度大约在 6 埃(一亿分之一厘米)左右,与解决蛋白质原子结构所需的 1 到 2 埃还有一定距离。」
但是在深度学习快速发展的今天,这种方法将越来越强大,例如如何进一步整合化学和物理知识就值得我们认真探讨。也许以后的新药开发成本会越来越低,医疗费用也会越来越低。
参考链接:https://hms.harvard.edu/news/folding-revolution