Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

稳健且准确,AlphaFold 结合两种 AI 方法,实现蛋白质化学位移自动分配

图片

编辑 | 绿萝

化学位移分配对于基于核磁共振 (NMR) 的蛋白质结构、动力学和相互作用研究至关重要,可提供重要的原子级见解。然而,获得化学位移分配是劳动密集型的并且需要大量的测量时间。

为了解决这一限制,苏黎世联邦理工学院(ETH Zurich)的研究人员之前提出了 ARTINA——一种用于自动分配二维 (2D)–4D NMR 谱的深度学习方法。

近日,研究人员提出了一种将 ARTINA 与 AlphaFold 和 UCBShift 相结合的综合方法,能够减少实验数据、提高准确性并增强大型系统的稳健性,从而实现化学位移分配。

研究证明,与使用所有实验可用的 NMR 数据(平均每个蛋白质 10 个 3D 光谱,91.37%)的纯 ARTINA 运行相比,五个 3D 光谱产生更准确的分配(92.59%),从而大大减少了所需的测量时间。研究还报告了在多达 500 个残基的大型合成系统中提高了分配准确性。

该研究以《Time-optimized protein NMR assignment with an integrative deep learning approach using AlphaFold and chemical shift prediction》为题,于 2023 年 11 月 22 日发布在《Science Advances》上。

图片

论文链接:https://www.science.org/doi/10.1126/sciadv.adi9323

ARTINA 方法的优缺点

核磁共振 (NMR) 光谱是一项关键的分析技术,可提供蛋白质结构、动力学和相互作用的详细信息。

使用本质上存在的核自旋探针可以同时获得大量单个原子位置的这些数据。为了实现这种原子分辨率,必须将核自旋的共振频率(以化学位移表示)归因于蛋白质中的各个原子。这种化学位移分配是大多数蛋白质 NMR 研究的一项关键任务。寻找化学位移分配非常耗时并且需要专业知识。

为了加速 NMR 化学位移分配来改变这种情况,人们应该减少所需光谱的数量,并在不影响结果可靠性的情况下实现分析的自动化。

在此,研究人员提出了一种方法,通过利用机器学习的最新进展并将三维(3D)蛋白质结构中包含的信息有效地纳入分配过程来实现这一目标。后者用于取代必须从额外的核磁共振谱中收集的信息。

通用自动分配方法 FLYA 最近被嵌入到 NMR 应用人工智能方法 (ARTINA) 和 NMRtist 网络服务器中,它们使用机器学习进行可视化光谱分析和其他任务,以自动完成从原始光谱到分配和 3D 结构的蛋白质核磁共振数据分析的整个过程。ARTINA 基本上减少了蛋白质化学位移分配的工作量,减少了样品制备和光谱测量的工作量。

然而,平均而言,需要使用超过 13 个多维 NMR 谱才能获得这些结果,这相当于使用传统采集方案对每个蛋白质进行 2 周以上的 NMR 测量时间。考虑到 ARTINA 算法的计算时间通常小于 2 小时,并且 NMR 波谱仪的操作比计算机的操作成本更高且要求更高,因此减少用于分配的光谱数量是提高生物分子核磁共振项目效率的明显策略。

蛋白质 3D 结构的知识主要可以通过两种方式支持化学位移分配:通过更真实地预测核欧佛豪瑟效应频谱(NOESY)中的预期交叉峰,以及通过基于结构的化学位移值的预测。这变得尤为重要,因为 AlphaFold 现在可以准确预测大多数结构化蛋白质的 3D 结构。

ARTINA 与 AlphaFold 和 UCBShift 相结合的综合方法

基于此,研究人员建立了一种基于机器学习的综合方法,用于基于结构的 NMR 化学位移分配。评估了其性能并确定用于分配主链酰胺基团或所有化学位移的最佳光谱集。

从 ARTINA 原始出版物的 89 种蛋白质的 1170 个实验光谱开始,研究定义了 25 组不同的输入光谱,用于 ARTINA 的自动分配计算。

化学位移分配的准确性在三种不同的情况下进行了评估:通过「经典」三共振谱对主链酰胺基团进行分配,通过 3D NOESY 和三共振谱对主链酰胺基团进行分配,以及完成主链和侧链化学位移的分配,并在每种情况下比较 ARTINA 在没有结构输入的情况下获得的分配结果,或仅使用结构生成预期的 NOESY 交叉峰,或者使用 UCBShift(一种化学位移计算程序)方法将该结构用于预测化学位移。

图片

图 1:实验数据量对完整蛋白质化学位移分配准确性的影响。(来源:论文)

此外,研究使用仅用 图片 标记样品记录的 NMR 谱测试了主链酰胺分配的可行性,这可以构成昂贵的 图片 双标记的替代方案。

图片

图 2:实验数据量对主链酰胺化学位移分配准确性的影响。(来源:论文)

研究人员使用 3DRobot 生成的大量折叠良好且包装良好的 decoys 来评估输入结构的准确性对分配的影响,这些 decoys 与实验结构的偏差为 0 到 5Å 均方根偏差(RMSD)。

图片

图 3:所提出的综合方法中影响化学位移分配准确性的因素。(来源:论文)

研究人员还评估了综合方法如何分配大型合成生成的蛋白质系统(最多 500 个残基),这些系统目前很少存放在生物磁共振数据库 (BMRB) 数据库中。

图片

图 4:蛋白质大小对自动化学位移分配准确性的影响。(来源:论文)

总之,结合该综合方法及其评估,研究人员提出了一套数据驱动的实用建议,用于执行蛋白质的化学位移分配。

综合方法还具有研究其他类型系统的潜力,例如蛋白质复合物、固有无序蛋白质、膜蛋白以及细胞内和固态核磁共振,对于这些系统,机器学习方法与单体系统同样有前景。

产业机器学习深度学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

推荐文章
暂无评论
暂无评论~