蛋白质折叠问题一直是一个耗费巨大的难题,但是这个难题的解决又对人类具有巨大的意义。于是各个研究机构都开始寻找蛋白质折叠问题的不同解,希望找到一种高效、准确的方式来解决这一难题。
幸运的是,在今年的 CASP(Critical Assessment of Techniques for Protein Structure Prediction)上,DeepMind 在今年找到了这个问题的其中一个「机器学习解」——AlphaFold,AlphaFold 的提出很好的解决了这一难题(在今年的 CASP 中获得了第一名),同时又将 AI 所涉及的领域扩展到了生物科学。今天这篇文章就主要介绍机器学习是如何在生物科学中大放异彩的。本文首先介绍了蛋白质以及蛋白质领域目前面对的难题,然后介绍了机器学习能在这一领域做出什么贡献,最后对这一领域的问题及未来进行了展望。
什么是蛋白质
蛋白质在我们的生命活动中扮演了极其重要的角色。几乎我们身体的各项动作——收缩肌肉,感应光线或将食物转化为能量,都可以归功于一种或多种蛋白质的配合。当你正在读这篇文章的时候,你血液里的血红蛋白正在将氧气运送到肌肉中,转运蛋白正在为神经元运送钠以产生动作电位,而你之所以能读懂这句话,眼睛里的感光蛋白功不可没。
不止这些「土生土长」的蛋白质在发挥作用,人工开发的蛋白质也已经被拼接到细菌基因组中以产生胰岛素,或是分解塑料废物来生产洗衣粉。所以,了解如何开发合适的人工蛋白质可以帮助我们提高生产效率,并开发具有全新功能的蛋白质。中学时期,我们其实已经对蛋白质有过不深的了解了。但是可能对很多人来说,高中已经很久远了,为了方便大家更好的理解本文,本节就对本文所需的蛋白质知识进行简要介绍。
一般来说,总共有 20 种氨基酸,而蛋白质则是一条氨基酸链,它通过共价键将氨基酸连在一起。我们可以把氨基酸看作英文中的字母,而这个「字母」使我们可以将蛋白质表示为一系列离散的标记,就像我们英语句子一样。这种离散的顺序表示形式被称为蛋白质的一级结构(Primary structure)。
然而,在细胞中,蛋白质是以三维结构存在的。由于蛋白质的功能与这个结构息息相关,因此了解这种 3D 结构极其重要。蛋白质的局部几何结构称为二级结构(Secondary structure),这个结构也相应的决定了这一部分的特征。最后,蛋白质的整体几何结构称为三级结构(Tertiary structure),它决定了蛋白质的整体特征。这些结构都是由 DNA 中的信息编码的。
图 1: 蛋白质的三种表达形式(图源:https://bair.berkeley.edu/blog/2019/11/04/proteins/)