AlphaFold | 机器之心

简介

AlphaFold 构建的模型都依赖深度神经网络，这些经过训练的神经网络可以从基因序列中预测蛋白质的属性。DeepMind 的研究人员表示，神经网络预测的蛋白质属性主要有：（a）氨基酸对之间的距离；（b）连接这些氨基酸的化学键及它们之间的角度。这些方法的首要进步就是对常用技术的提升，它们可以估计氨基酸对是否彼此接近。

为了构建 AlphaFold，DeepMind 在数千已知的蛋白质上训练了一个神经网络，直到它可以仅凭氨基酸预测蛋白质的 3D 结构。给定一种新的蛋白质，AlphaFold 利用神经网络来预测氨基酸对之间的距离，以及连接它们的化学键之间的角度。接着，AlphaFold 调整初步结构以找到能效最高的排列。该项目花了两周时间来预测其第一个蛋白质结构，但现在几小时内就可以完成了。

DeepMind以跨学科的方式开展工作，汇集了结构生物学、物理学和机器学习领域的专家，应用尖端技术，完全基于蛋白质的基因序列来预测蛋白质的3D结构。

AlphaFold系统，是DeepMind在2017-2018年中一直在研究的项目，它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多，在生物学的核心挑战之一上取得了重大进展。

什么是蛋白质折叠问题？

蛋白质是维持生命所必需的大而复杂的分子。几乎渗透到我们身体的每一个功能——收缩肌肉，感知光线，或将食物转化为能量——都可以追溯到一种或多种蛋白质，以及它们是如何运动和变化的。这些被称为基因的蛋白质是由我们的DNA编码的。

任何给定的蛋白质能做什么取决于它独特的3D结构。例如，构成我们免疫系统的抗体蛋白是“Y”形的。通过与病毒和细菌结合，抗体蛋白能够检测并标记致病微生物并进行消灭。同样，胶原蛋白的形状像绳子，在软骨、韧带、骨骼和皮肤之间传递张力。其他类型的蛋白质包括CRISPR和CAS9，它们的作用就像剪刀和切割和粘贴DNA；抗冻蛋白，其3D结构允许它们与冰晶结合并防止生物体冻结；核糖体就像一条程序化的组装线，帮助蛋白质自身的构建。

但是，纯粹从蛋白质的基因序列来确定蛋白质的三维形状是一项复杂的任务，科学家们几十年来一直发现这是一项具有挑战性的任务。挑战在于，DNA只包含有关蛋白质组成块氨基酸残基序列的信息，氨基酸残基形成长链。预测这些链如何折叠成蛋白质复杂的3D结构就是所谓的“蛋白质折叠问题”。

蛋白质越大，建模就越复杂和困难，因为需要考虑的氨基酸之间的相互作用就越多。正如Levinthal’s paradox中所指出的，在达到正确的3D结构之前，枚举典型蛋白质的所有可能构型所需的时间要比宇宙的年龄长。

为什么蛋白质折叠问题很重要？

预测蛋白质形状的能力对科学家是有用的，因为它可以帮助理解蛋白质在体内的作用，很多疾病被认为是由错误折叠的蛋白质引起的疾病，如阿尔茨海默氏症、帕金森氏症、亨廷顿氏症和囊性纤维化，都是至关重要的。

它可能会提高我们对身体的认识和它的工作原理，使科学家能够设计新的，有效的治疗疾病的更有效的方法。随着我们通过模拟和剪模获得更多关于蛋白质形状和它们如何运作的知识，它在药物发现方面开辟了新的潜力，同时也降低了与实验相关的成本。这将最终改善全世界数百万患者的生活质量。

对蛋白质折叠的理解也有助于蛋白质的设计，这将带来巨大的好处。例如，生物可降解酶的进步——可以通过蛋白质设计来实现——可以帮助管理塑料和石油等污染物，帮助我们以对环境更友好的方式分解废物。事实上，研究人员已经开始对细菌进行工程改造，使其分泌的蛋白质能使废物可生物降解，更容易处理。

为了促进研究和衡量提高预测准确性的最新方法的进展，1994年设立了一个两年一度的全球竞赛，称为蛋白质结构预测技术临界评估试验(community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction ， CASP)现已成为评估技术的黄金标准。

人工智能如何发挥作用？

在过去的50年里，科学家们已经能够在实验室中使用低温电子显微镜、核磁共振或X射线晶体学等实验技术来确定蛋白质的形状，但每种方法都要经过大量的尝试和失败，这可能需要数年时间，每个结构要花费数万美元。这就是为什么生物学家转向人工智能方法，它可以替代这些长期和艰苦的过程。

幸运的是，由于基因测序成本的迅速降低，基因组学领域的数据相当丰富。因此，在过去的几年中，依赖于基因组数据的预测问题的深度学习方法已经变得越来越流行。 DeepMind在这个问题上的工作也就是alphaFold，向CASP提交该作品。 CASP组织者称“计算方法预测蛋白质结构能力的空前进步”的一部分，并且在参赛队伍中名列第一（参赛作品是A7D)。

DeepMind特别关注从零开始建模目标形状的困难问题，而不是使用以前解决的蛋白质作为模板。 DeepMind在预测蛋白质结构的物理性质时达到了很高的准确度，然后使用两种不同的方法来构建全蛋白质结构的预测。

用神经网络预测物性

DeepMind训练了一个神经网络来预测蛋白质中每对残基之间的距离分布。然后将这些概率合并成一个分数，以估计提出的蛋白质结构有多精确。 DeepMind还训练了一个单独的神经网络，它综合使用所有的距离来估计所提出的结构与正确答案的接近程度。

蛋白质结构预测的新方法

使用这些打分函数，我们能够搜索蛋白质，找到符合我们预测的结构。我们的第一个方法建立在结构生物学常用的技术上，并用新的蛋白质片段反复替换蛋白质结构的片段。我们训练了一个生成式神经网络来创建新的片段，这些片段被用来不断改进所提出的蛋白质结构的得分。

第二种方法通过梯度下降来优化分数，这是机器学习中常用的一种数学技术，用于进行小的、渐进的改进，从而产生高度精确的结构。该技术应用于整个蛋白质链，而不是在组装前必须分开折叠的片段，从而降低了预测过程的复杂性。

【来源：https://deepmind.com/blog/alphafold/ 】

发展历史

描述

Alphabet（谷歌）旗下公司 DeepMind 的人工智能 AlphaGo 曾在国际象棋、围棋等项目中取得了超越人类的表现，其研究不仅震惊世界，也两次登上 Nature。如今，该公司已将人工智能技术应用到最具挑战性的科学研究问题中，其刚刚推出的 AlphaFold 可以仅根据基因「代码」预测生成蛋白质的 3D 形状。据DeepMind公司介绍，AlphaGo研究项目始于2014年，目的是为了测试一个使用深度学习的神经网络如何在Go上竞争。在2016年AlphaGo计划击败李世石之后，DeepMind就迅速将目光投向了蛋白质折叠。2017年10月，DeepMind在一次公开采访中表示，团队开始对人工智能在药物开发中的应用感兴趣，而新药开发的关键一步，就是对靶点蛋白质三维结构的精准测算。

【来源： AlphaGo - Yufeng Xiong 】

计算蛋白质模型主要分成了三大流派——Comparative Modeling的演化流，threading methods的比对流，还有from scratch的ab initio流。

演化流的核心概念是寻找演化历史上同源或者近似同源的序列，从他们的结构出发预测新的目标蛋白；比对流的核心概念是说，不一定要演化上同源，直接将目标序列中的片段和曾经解析出来的三维结构进行匹配和比对，就可以用来预测新的蛋白；而最难却也最关键的，就是ab initio流，目的是从零开始预测那些完全找不到相似性的蛋白序列，这是拉丁语里从最初开始的意思。

1999年，一款基于ab initio的模型Rossetta由华盛顿大学David Baker团队开发。模型通过Monte Carlo模拟退火算法成功预测了长度100个氨基酸左右的若干蛋白，预测精度最低达到方均根差(RMSD) 3.8Å，并成为了CASP III的获奖者之一（Simons et al., Proteins. 1999.）。Baker 2003年发表于Science杂志上的一项工作中，更是成功预测了一段长度93个氨基酸的人工合成序列TOP7，精度达到1.2Å（Kuhlman et al., Science. 2003.）。2005年，Baker团队开发了屏保程序Rosetta@home，客户端会在闲置时帮助Rossetta服务器进行结构解析的模拟运算。借用这种分布式计算的形式，调用众多闲置个人计算资源，取得了极大的成功。

Baker Lab开发的的屏幕保护程序Rossetta@Home

近年来，随着CASP挑战的持续进行，这些流派之间的界限也逐渐变得模糊，越来越多的科研团队开始把这三方面信息都整合到一个模型之中，融合成一个更加准确的预测模型。在这些团队之中，来自密西根大学的Yang Zhang团队所开发的I-TASSER，就是成功的例子之一。

【来源： https://zhuanlan.zhihu.com/p/51429874 】

DeepMind在对基因结构预测的工作也就是alphaFold，向CASP提交该作品。 CASP组织者称“计算方法预测蛋白质结构能力的空前进步”的一部分，并且在参赛队伍中名列第一（参赛作品是A7D)。

DeepMind 用 AlphaFold 参加了 CASP，这是一年两次的蛋白质折叠奥运会，吸引了来自世界各地的研究小组。比赛的目的是根据氨基酸列表来预测蛋白质的结构，这些氨基酸列表会在几个月内每隔几天发送给参赛团队。这些蛋白质的结构最近已经通过耗费财力和时间的传统方法破解，但还没有公开。提交最准确预测的团队将获胜。

尽管是首次参加比赛，AlphaFold 就在 98 名参赛者中名列榜首，准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构。而同组比赛中获得第二名的参赛者仅准确预测出了 3 种。值得一提的是，AlphaFold 关注从头开始建模目标形状，且并不使用先前已经解析的蛋白质作为模板。AlphaFold 在预测蛋白质结构的物理性质上达到了高度的准确性，然后基于这些预测可以使用两种不同的方法预测构建完整的蛋白质结构。

【来源：
AlphaGo之后，DeepMind重磅推出AlphaFold：基因序列预测蛋白质结构】

主要事件

年份	事件	相关论文/Reference
2016年	DeepMind公司在Nature上发布了击败欧洲围棋冠军樊麾（Fan Hui）的AlphaGo版本论文，结合深度神经网络和树搜索技术	Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Dieleman, S. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
2017年	DeepMind公司在Nature发布了AlphaGo Zero论文，和之前的AlphaGo相比，新版本的AlphaGo Zero无需人类的知识，计算机程序通过自我对弈学习升级。	Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., ... & Chen, Y. (2017). Mastering the game of go without human knowledge. Nature, 550(7676), 354.
2017年	DeepMind公司发布AlphaZero论文，进阶版的AlphaZero算法将围棋领域扩展到国际象棋、日本象棋领域，且无需人类专业知识就能击败各自领域的世界冠军	Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., ... & Lillicrap, T. (2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. arXiv preprint arXiv:1712.01815.
2018	DeepMind公司在CASP大会上投递A7D，大大提高了精度；《De novo structure prediction with deeplearning based scoring》在CASP比赛网站上提出的模型概述

发展分析

瓶颈

近年来以google为首的人工智能团队在生物医药领域全面发展，已经在癌症病理图片识别，基因组突变检测，疾病风险评估等诸多领域取得了等于与人类水平，甚至超过人类水平的耀眼成绩。但这些表面看上去很成功的模型也都不可避免地受到普适性、可用性、可解释性的障碍。

【来源：https://vcbeat.net/Y2Q3YWVhZGU5ZmVhZGYyYjhhYmIwZDAyMTkwYmMxOTU= 】

未来发展方向

DeepMind第一次尝试蛋白质折叠的成功，表明了机器学习系统如何整合不同的信息源来帮助科学家快速找到复杂问题的创造性解决方案。正如已经看到人工智能如何帮助人们通过AlphaGo和AlphaZero这样的系统掌握复杂的游戏一样，DeepMind同样希望有一天，人工智能的突破也能帮助我们掌握基本的科学问题。

令人兴奋的是看到这些蛋白质折叠进展的早期迹象，展示了人工智能在科学发现中的作用。尽管在我们能够在治疗疾病、管理环境等方面产生可量化的影响之前还有很多工作要做，但我们知道潜力是巨大的。有了一个专注于研究机器学习如何促进科学世界发展的团队，我们期待着看到我们的技术在很多方面都能有所作为。

如：眼底筛查；2016年3月，DeepMind Health（现已纳入Google Health）使用与AlphaGo系统相同的深度学习技术。已经与伦敦大学学院和Moorfields眼科医院的研究人员使用深度学习技术创建软件，通过3D扫描识别数十种常见眼病，然后建议患者进行治疗。

乳腺癌筛查；2018年4月，Deepmind 加入了伦敦帝国理工学院英国帝国癌症研究中心领导的一项开创性的新研究合作伙伴关系，探讨人工智能技术是否可以帮助临床医生更快更有效地诊断乳腺癌乳腺癌。

协助医生制定放疗计划：2018年9月，Deepmind 伦敦大学医院NHS基金会信托基金放射治疗部门正在开发一种人工智能（AI）系统，该系统能够分析头颈癌的医学扫描图像并作为专家临床医生以类似的标准将其分类。在计划放射治疗时，器官分割过程是一个必不可少但耗时的步骤。Deepmind正在开发一种新的性能指标，用于评估认为更能代表临床过程的模型性能，以及一个测试集，帮助医生进行器官分割与危及器官勾画。

预测急性肾损伤恶化风险：

2018年2月，Deepmind与美国退伍军人事务部（VA）建立医学研究合作伙伴关系，该部门是世界领先的医疗保健组织之一，负责为美国各地的退伍军人及其家人提供高质量的医疗服务。

以google为首的人工智能团队在生物医药领域全面发展，可以发现在生物学的各个领域与计算机科学的互相结合可以推动各种方向的发展。

【来源：智能图像处理如何实现机器视觉及其应用的高效智能？】

Contributor: Ruiying Cai

简介