Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

David Baker团队发布最新版RFdiffusion,能够设计更加真实的蛋白质

图示:RFdiffusion 设计了一种与甲状旁腺激素结合的蛋白质。(来源:华盛顿大学)

编辑 | ScienceAI 编辑部

在蛋白质研究领域,华盛顿大学 David Baker 团队始终走在前列。

去年底,大卫贝克团队推出 RoseTTAFold Diffusion (RFdiffusion) 扩散模型。发布在 BioRxiv 预印平台。并于今年 3 月份进行了开源。

RFdiffusion 在无条件和拓扑约束的蛋白质单体设计、蛋白质结合剂设计、对称寡聚物设计、酶活性位点支架以及用于治疗和金属结合蛋白质设计的对称基序支架方面实现了出色的性能。使蛋白质结构设计更广泛、更准确。

近日,在此前版本的基础上,研究人员利用 RFdiffusion 可以设计出各种功能性蛋白质。

该研究以《De novo design of protein structure and function with RFdiffusion》为题,于 2023 年 7 月 11 日发布在《Nature》。

图片

从头蛋白质设计旨在生成具有特定结构或功能特性的蛋白质,例如与给定目标进行结合相互作用、折叠成特定拓扑结构或稳定所需的功能「基序」(产生所需活性的几何结构和氨基酸特性)。

去噪扩散概率模型 (DDPM) 是一类功能强大的机器学习模型,最近被证明可以响应文本提示生成新颖的逼真图像,它具有几个非常适合蛋白质设计的特性。

扩散模型在图像和语言生成建模方面取得了相当大的成功,但在应用于蛋白质建模时却取得了有限的成功,这可能是由于蛋白质主链几何形状和序列结构关系的复杂性。

华盛顿大学大卫贝克团队展示了通过在蛋白质结构去噪任务上微调 RoseTTAFold 结构预测网络,最终获得了蛋白质主链的生成模型。该模型在无条件和拓扑约束的蛋白质单体设计、蛋白质结合剂设计、对称寡聚物设计、酶活性位点支架以及用于治疗和金属结合蛋白质设计的对称基序支架方面实现了出色的性能。

该团队通过实验表征数百个设计的对称组件、金属结合蛋白和蛋白质结合物的结构和功能,展示了该方法的强大功能和通用性,称为 RoseTTAFold 扩散(RFdiffusion)。RFdiffusion 类似于根据用户指定的输入生成图像的网络,可以根据简单的分子规格设计多种功能蛋白质。

图片

图示:RFdiffusion 的首席开发人员。(来源:Baker Lab)

湿实验测试

在真实湿实验测试方面,Baker 表示,10-20% 的 RFdiffusion 设计与预期目标的结合足够牢固,足以发挥作用,而早期的人工智能方法中只有不到 1%。

威斯康星大学的生物化学家 Matthias Gloegl 表示,最近他的成功率接近 50%,这意味着只需一两周即可提出可行的设计,而不是几个月。「这真的很疯狂!」他说。

据哈佛大学的进化生物学家 Sergey Ovchinnikov 称,截至 6 月底,基于云的 RFdiffusion 版本每天约有 100 名用户。悉尼大学的生物化学家 Joel Mackay 一直在尝试利用射频扩散来设计能够与其实验室研究的其他蛋白质结合的蛋白质,其中包括控制细胞内基因活性的转录因子分子。他发现设计过程很简单,并使用计算机建模来验证,理论上,蛋白质应该与转录因子结合。

Mackay 现在正在测试这些蛋白质在细胞中产生时是否可以按预期改变基因表达。他祈祷,因为这样的发现将相当于一种简单的方法来打开和关闭细胞内的特定转录因子,而不是使用可能需要数年时间才能识别的药物。「如果这种方法对我们的蛋白质类型可靠地起作用,那将彻底改变游戏规则。」他说。

图片

图示:使用扩散模型,通过「去噪」过程所设计设计了漏斗形蛋白质组装体(顶部)和具有 6 个蛋白质链的环状结构(底部)。(来源:华盛顿大学蛋白质设计研究所)

未来的改进

英国牛津大学免疫信息学家 Charlotte Deane 表示,RFdiffusion 等最新模型是一个「阶段性的改变」。但关键挑战依然存在。「它将激励人们看到我们可以将这些扩散方法推向多远。」她说。 

剑桥微软研究院 Kevin Yang 说,最新扩散方法的另一个限制是它们无法产生与天然蛋白质截然不同的蛋白质。「还有很大的增长空间。」Yang 说。 

纽约哥伦比亚大学计算生物学家 Mohammed AlQuraishi 表示,事实证明,最新的蛋白质设计工具在创造能够执行特定任务的蛋白质方面非常强大,只要该功能可以用形状来描述。但是,RFdiffusion 等工具尚无法处理其他类型的规格,例如制造一种无论其形状如何都可以进行特定反应的蛋白质。 

Generate Biomedicines 的联合创始人兼 CTO Gevorg Grigoryan 说,未来的蛋白质设计工具还需要能够生产出符合多种不同标准的蛋白质。潜在的治疗蛋白不仅必须与其靶标结合,而且不能与其他靶标结合,并且应该具有易于大规模生产的特性。

研究人员正在探索的一个方向是是否可以使用简单的语言文本描述来设计蛋白质,类似于 Midjourney 等图像生成工具的提示。 

这项研究的重要参与者、华盛顿大学的计算化学家 David Juergens 使用工具在几分钟内创建的蛋白质只是蛋白质 3D 结构的模型。然后,Juergens 使用另一种人工智能工具来得出应折叠成该结构的氨基酸序列。作为最后的检查,他将序列插入 AlphaFold 中,看看软件是否预测出与设计相匹配的折叠结构。它们是准确的,AlphaFold 的预测与设计的平均差异仅为 1 Å。

RFdiffusion 的共同开发者、华盛顿大学计算生物化学家 Joe Watson 说:「我们认为这是设计上的成功。」他说,剩下唯一要做的就是看看这种蛋白质在现实生活中的表现如何。

开源地址:https://github.com/RosettaCommons/RFdiffusion

https://colab.research.google.com/github/sokrypton/ColabDesign/blob/v1.1.1/rf/examples/diffusion.ipynb

相关报道: 

https://www.nature.com/articles/d41586-023-02227-y

https://www.bakerlab.org/2023/07/11/diffusion-model-for-protein-design/

https://www.bakerlab.org/2023/03/30/rf-diffusion-now-free-and-open-source/

论文链接:https://www.nature.com/articles/s41586-023-06415-8

产业
暂无评论
暂无评论~