2018/12/03 11:59

AlphaGo之后，DeepMind重磅推出AlphaFold：基因序列预测蛋白质结构

Alphabet（谷歌）旗下公司 DeepMind 的人工智能 AlphaGo 曾在国际象棋、围棋等项目中取得了超越人类的表现，其研究不仅震惊世界，也两次登上 Nature。如今，该公司已将人工智能技术应用到最具挑战性的科学研究问题中，其刚刚推出的 AlphaFold 可以仅根据基因「代码」预测生成蛋白质的 3D 形状。

DeepMind 表示，AlphaFold 是「该公司首个证明人工智能研究可以驱动和加速科学新发现的重要里程碑」。看来，人类医学研究要前进一步了。

2017 年 5 月，谷歌 DeepMind 人工智能项目 AlphaGo（执棋者：黄士杰博士）对战当时世界第一的围棋选手柯洁。

周日，在墨西哥坎昆举办的一场国际会议中，DeepMind 的最新 AI——AlphaFold 在一项极其困难的任务中击败了所有对手，成功地根据基因序列预测出蛋白质的 3D 形状。

「蛋白质折叠」是一种令人难以置信的分子折叠形式，科学界以外很少有人讨论，但却是一个非常重要的问题。生物由蛋白质构成，生物体功能由蛋白质形状决定。理解蛋白质的折叠方式可以帮助研究人员走进科学和医学研究的新纪元。

「对于我们来说，这真的是一个关键时刻，」DeepMind 联合创始人兼 CEO Demis Hassabis 表示，「这个项目就像灯塔，这是我们关于人和资源的首次重大投资，用于解决一个根本性的、现实世界的重要问题。」

在 2016 年 AlphaGo 击败李世乭后，DeepMind 就开始将目光转向蛋白质折叠。尽管实践证明，游戏是 DeepMind AI 项目的优秀试验场，但在游戏中取得高分并非他们的终极目标。「我们的目标从来就不是赢得围棋或雅达利比赛的胜利，而是开发能够解决蛋白质折叠这类问题的算法，」Hassabis 表示。

为什么要预测蛋白质结构

人体能够产生数万甚至数百万的蛋白质。每个蛋白质都是一个氨基酸链，而后者的类型就有 20 种。蛋白质可以在氨基酸之间扭曲、折叠，因此一种含有数百个氨基酸的蛋白质有可能呈现出数量惊人（10 的 300 次方）的结构类型。

蛋白质的 3D 形状取决于其中包含的氨基酸数量和类型，而这一形状也决定了其在人体中的功能。例如，心脏细胞蛋白质的折叠方式可以使血流中的任何肾上腺素都粘在它们上面，以加速心率。免疫系统中的抗体是折叠成特定形状的蛋白质，以锁定入侵者。几乎身体的每一种功能——从收缩肌肉和感受光线到将食物转化为能量——都和蛋白质的形状及运动相关。

通常情况下，蛋白质会呈现出能量效率最高的任何形状，但它们可能会纠缠在一起或者折叠错误，导致糖尿病、帕金森和阿茨海默症等疾病。如果科学家可以根据蛋白质的化学构成来预测其形状，他们就能知道它是做什么的，会如何出错并造成伤害，并设计新的蛋白质来对抗疾病或履行其它职责，比如分解环境中的塑料污染。

AI 如何改变研究方法？

正因为蛋白质的结构如此重要，在过去的五十年中，科学家已经能使用低温电子显微镜和核磁共振等实验技术确定蛋白质的形状，但是每一种方法都依赖大量的试验与误差反馈，每种结构可能需要花费数万美元、历时数年进行研究。因此生物学家转攻 AI 方法，以完成这一困难且单调的过程。

幸运的是，由于基因测序成本快速降低，基因组领域的数据非常丰富。因此在过去几年中，依赖于基因组数据的预测问题正越来越多地借助深度学习方法。DeepMind 非常关注这一问题，并提出了 AlphaFold，这一项工作目前已经提交到了Critical Assessment of Structure Prediction (CASP）。

DeepMind 用 AlphaFold 参加了 CASP，这是一年两次的蛋白质折叠奥运会，吸引了来自世界各地的研究小组。比赛的目的是根据氨基酸列表来预测蛋白质的结构，这些氨基酸列表会在几个月内每隔几天发送给参赛团队。这些蛋白质的结构最近已经通过费力又费钱的传统方法破解，但还没有公开。提交最准确预测的团队将获胜。

尽管是首次参加比赛，AlphaFold 就在 98 名参赛者中名列榜首，准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构。而同组比赛中获得第二名的参赛者仅准确预测出了 3 种。值得一提的是，AlphaFold 关注从头开始建模目标形状，且并不使用先前已经解析的蛋白质作为模板。AlphaFold 在预测蛋白质结构的物理性质上达到了高度的准确性，然后基于这些预测可以使用两种不同的方法预测构建完整的蛋白质结构。

使用神经网络预测物理属性

AlphaFold 构建的模型都依赖深度神经网络，这些经过训练的神经网络可以从基因序列中预测蛋白质的属性。DeepMind 的研究人员表示，神经网络预测的蛋白质属性主要有：（a）氨基酸对之间的距离；（b）连接这些氨基酸的化学键及它们之间的角度。这些方法的首要进步就是对常用技术的提升，它们可以估计氨基酸对是否彼此接近。

为了构建 AlphaFold，DeepMind 在数千已知的蛋白质上训练了一个神经网络，直到它可以仅凭氨基酸预测蛋白质的 3D 结构。给定一种新的蛋白质，AlphaFold 利用神经网络来预测氨基酸对之间的距离，以及连接它们的化学键之间的角度。接着，AlphaFold 调整初步结构以找到能效最高的排列。该项目花了两周时间来预测其第一个蛋白质结构，但现在几小时内就可以完成了。

根据神经网络预测的两种物理属性，DeepMind 还训练了一个神经网络以预测蛋白质成对残基（residues）之间距离的独立分布，这些概率能组合成估计蛋白质结构准确率的评分。此外，DeepMind 还训练了另一个独立的神经网络，该网络使用集群中的所有距离来估计预测的结构与实际结构之间的差距。

预测蛋白质结构的新方法

这些评分函数可以用来探索蛋白质内部，以找到与预测匹配的结构。DeepMind 的第一种方法建立在结构生物学的常用技术上，用新的蛋白质片段反复替换蛋白质整体结构的某个部分。他们训练了一个生成神经网络来创造新的片段，这些片段被用来不断提高蛋白质结构的评分。

先通过神经网络预测氨基酸之间的距离和化学键角度，然后再根据两种物理属性对结构进行评分，最后通过梯度下降优化评分。

第二种方法是通过梯度下降来优化评分，得到的结构高度精确。梯度优化被用在整个蛋白质链，而不是组装前必须单独折叠的片段，这种做法降低了预测过程的复杂性。

未来可期

首次涉足蛋白质折叠领域的成功表明，机器学习系统可以整合各种信息来源，帮助科学家快速找到各种复杂问题的创造性解决方案。人工智能已经通过 AlphaGo 和 AlphaZero 等系统掌握了复杂的游戏，与此类似，利用人工智能攻克基本科学问题的未来同样可期。

雷丁大学的研究人员 Liam McGuffin 在比赛中带领得分最高的英国学术团体。他表示，「DeepMind 今年似乎取得了更大的进展，我想进一步了解他们的方法。我们的资源并不充足，但我们仍然有很强的竞争力。」

「预测蛋白质折叠形状非常重要，对解决很多世纪难题有重大影响。这种能力可以影响健康、生态、环境，基本上可以解决任何涉及生命系统的问题。」

「包括我们在内的很多团队几年来一直都在使用基于机器学习的方法，而深度学习和人工智能的进步似乎也产生了越来越重要的影响。我对这个领域很乐观，我觉得我们会在 21 世纪 20 年代真正解决这个问题。」McGuffin 表示。

Hassabis 也表示还有很多工作要做。「我们还没有解决蛋白质折叠问题，目前只是迈出了第一步。这是一个极具有挑战性的问题，但我们有一个良好的体系，还有很多想法尚未付诸实践。」

蛋白质折叠的早期进展令人兴奋，它证明了人工智能对科学发现的效用。尽管在能够对疾病治疗、环境管理等方面产生量化影响之前，我们还有很多工作要做，但我们知道人工智能的潜力是巨大的。在一个专注于研究机器学习如何推进科学发展的专业团队的努力下，我们期待看到技术能够有所作为。

参考内容：

https://www.theguardian.com/science/2018/dec/02/google-deepminds-ai-program-alphafold-predicts-3d-shapes-of-proteins

https://deepmind.com/blog/alphafold/

产业DeepmindAlphaGoAlphaFold

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

杰米斯·哈萨比斯人物

英国人工智能研究者，DeepMind 创始人之一

所属机构

DeepMind

来源：DeepMind 公司页面 Hassabis, D.

黄士杰人物

DeepMind科学家，AlphaGo提出者之一

来源：百度百科

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

阿尔法围棋技术

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序，也是第一个打败围棋世界冠军的计算机程序，可以说是历史上最强的棋手。技术上来说，AlphaGo的算法结合了机器学习（machine learning）和树搜索（tree search）技术，并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索（MCTS：Monte-Carlo Tree Search），以价值网络（value network）和策略网络（policy network）为指导，其中价值网络用于预测游戏的胜利者，策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的，神经网络的输入是经过预处理的围棋面板的描述（description of Go board）。

来源： Deepmind

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。要使用梯度下降找到函数的局部最小值，可以采用与当前点的函数梯度（或近似梯度）的负值成比例的步骤。如果采取的步骤与梯度的正值成比例，则接近该函数的局部最大值，被称为梯度上升。

来源：Vapnik V. N. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag.Wikipedia

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia