由于新的人工智能方法的出现,破解生物学最大挑战之一“从氨基酸序列预测蛋白质的三维结构”的“竞赛”正在加剧。任何给定的蛋白质能做什么,取决于它独特的3D结构。所以,能精确预测蛋白质的3D结构意义非凡。
▲ 预测蛋白质3D结构模型示意
(图片来源:参考资料[2])
去年年底,谷歌DeepMind推出了一种名为AlphaFold(一个用人工智能加速科学发现的系统,它基于蛋白质的基因序列,就能预测蛋白质的3D结构,结果比以前的任何模型都要精确)的算法,它将该领域出现的两种技术结合起来,并在蛋白质结构预测方面以惊人的优势击败了当时已存在的所有算法。今年4月,一位美国研究人员展示一种与以往完全不同的算法,他声称,新AI系统在预测蛋白质3D结构方面将比DeepMind AlphaFold快100万倍。
不管是Alphafold还是新的AI系统,对于生物学家们来说,他们更关心的是:当两种方法都使用人工智能技术时,深度学习如何更好应用于预测蛋白质的排列并最终决定蛋白质的功能。目前已知使用AI比现有的实验室技术(如x射线晶体衍射)更便捷高效,具体体现如下:
首先能帮助科学家更好地理解蛋白质在人体内的作用。对于诊断和治疗由蛋白质错误折叠引起的疾病,比如阿尔茨海默氏症、帕金森氏症、亨廷顿氏症等,起到至关重要的作用;
还可以提高人们对身体工作原理的认识,促进新的疾病疗法诞生,降低新药研发成本;
另外,AI有助于更好地设计蛋白质,比如推动可生物降解酶的进步,帮助人们控制像类似于塑料这样的污染物。
“目前该领域的研究结果值得期待,”John Moult说。他是马里兰大学帕克分校的生物学家也是CASP(“蛋白质结构预测奥运会”)比赛的创始人。
Mohammed AlQuraishi的创新优化方法
最新算法的创造者,是来自哈佛医学院的生物学家 Mohammed AlQuraishi,他尚未直接将他的算法所能预测的精度与AlphaFold相比。AlQuraishi承认,AlphaFold基于结构生物学中常用的技术——用新的蛋白质片段反复替换蛋白质结构的片段,进而训练了一个生成神经网络来发明新的片段,用来不断提高蛋白质结构的评分。在这一技术上AlphaFold预测精确性的确要高得多。但他表示,由于他的算法使用相关函数来计算蛋白质结构,计算过程只需一步,而不是像AlphaFold那样分两步完成。所以新技术预测蛋白质结构的时间只需几毫秒,而不是几小时或几天。
科学界表示:AlQuraishi的新技术具有前瞻性。该新技术的创造建立在不断进步的深度学习理论以及他发明的一些新技术的基础上。在未来,当他的创新之举与其他人思想、研究结合起来时,可更进一步推动蛋白质折叠领域的研究和发展。
AlQuraishi新系统的核心是人工神经网络。它提供了有关氨基酸序列如何映射到蛋白质结构的已知数据,然后进行自主学习从不熟悉的序列再产生新的蛋白质结构。他的系统的新颖部分在于它能够端到端地直接创建映射; 而其他系统使用神经网络,需要先预测结构的某些特征,然后再用另一种算法费力地寻找包含这些特征的看似合理的蛋白质结构。目前,AlQuraishi的AI系统还需要几个月的时间去训练,一旦训练测试结束,这个新AI几乎可以立即将任何序列转换为蛋白质结构。
研究者把这种新的神经网络方法称为“循环几何网络”(geometry network),该方法基于某段结构之前和之后的序列信息,来预测其中某一段的结构。这类似于人们在短文中对一个或几个关键词的理解会受到上下文语境的影响,对于整体文章的理解反过来也会受到一个或几个关键词汇的影响。
但由于技术上的难度,AlQuraishi的新系统在CASP13上的表现并不是特比好,他公开了该系统的研究细节并在Github上公开了源代码,希望未来有更多人参与这个项目,获得更大的进展和突破。
DeepMind方案:基于深度神经网络
AlphaFold在CASP13中变现优异,据悉,它预测蛋白质结构的目标指标比同类参赛的AI系统高出15%。
AlphaFold分两步完成对蛋白质结构的预测。与竞赛中使用其他方法的AI系统一样,它从多序列比对开始。AlphaFold依赖深度神经网络,需要训练深度神经网络从基因序列中预测蛋白质的两种特性:1) 成对的氨基酸之间的距离;2) 连接这些氨基酸的化学键之间的角度。
接着DeepMind训练一个神经网络来预测蛋白质中每对残基之间的距离分布。然后,将这些概率组合成一个分数。他们还训练了一个单独的神经网络,该网络使用汇总了的所有距离分布来评估预测结构与标准结构的接近程度。使用这些评分函数,能够找到与他们的预测相匹配的结构。
图片来源: 参考资料[2]
DeepMind的第一种方法建立在结构生物学常用的技术上,并用新的蛋白质片段反复替换蛋白质结构的片段。他们训练出了一种生成神经网络来构建新片段,以此来不断提升预测蛋白质结构的准确度。
但是预测的精确距离和角度可能在物理上是不可能的。因此,AlphaFold使用第二步:通过梯度下降法优化得分(这是机器学习中常用的一种数学技术)可以进行小的、增量的改进,从而得到高精度的结构。
图片来源: 参考资料[2]
未来发展方向
DeepMind目前尚未公布AlphaFold的所有细节,但其他团队已开始采用DeepMind和CASP13上其他领先团队所展示的先进策略。密苏里大学(University of Missouri)的计算机科学家Jianlin Cheng表示,他将进一步优化自己的深层神经网络,使其具备某些AlphaFold的特征,比如,在每对残基距离预测阶段向神经网络添加更多层。拥有更多层通常允许网络更深入地学习、处理信息,深度学习也因此得名。
AlphaFold研究团队成员还表示,不畏竞争,协同发展,AI存在的目的本是为了造福人类。所以他们对于未来类似成熟的、新的系统的应用持乐观以及期盼的态度。
Moult表示,关于深度学习如何应用于蛋白质折叠领域的研究是CASP13的讨论热点。未来不断的研究,AI可在更多方面辅助科学家,比如,精确近似结构的预测、算法在蛋白质折叠预测方面的自信程度、蛋白质间模型的相互作用等。虽然目前所取得的成就还无法广泛应用于药物设计,但蛋白质结构预测精度的提高已可以用于:了解突变蛋白如何导致疾病或了解蛋白质的哪一部分可转化并用于免疫治疗。
参考资料:
[1] AIprotein-folding algorithms solve structures faster than ever, Jul 22 2019,
from https://www.nature.com/articles/d41586-019-01357-6
[2]http://www.sohu.com/a/280762498_505803