编译 | 白菜叶
人工智能 (AI) 正在帮助重新绘制病毒家族树。AlphaFold 生成的预测蛋白质结构和受聊天机器人启发的「蛋白质语言模型」揭示了病毒家族中的一些令人惊讶的联系,其中包括感染人类的病原体以及新出现的威胁。
科学家对病毒进化的理解大多基于基因组比较。但病毒(尤其是那些基因组以 RNA 编写的病毒)的闪电般快速进化以及它们从其他生物体获取遗传物质的倾向意味着基因序列可以隐藏病毒之间深远的关系,而这种关系也可能因所检查的基因而异。
相比之下,病毒基因编码的蛋白质的形状或结构往往变化缓慢,这使得找出这些隐藏的进化联系成为可能。但英国格拉斯哥大学分子病毒学家 Joe Grove 表示,在 AlphaFold 等可以大规模预测蛋白质结构的工具出现之前,我们无法比较整个病毒家族的蛋白质结构。
在 9 月发表在《Nature》杂志上的一篇论文中,Grove 团队展示了基于结构的方法在研究牛黄病毒中的作用。黄病毒包括丙型肝炎病毒、登革热病毒和寨卡病毒,以及一些可能对人类健康构成新威胁的主要动物病原体和物种。
论文链接:https://www.nature.com/articles/s41586-024-07899-8
病毒如何进入
研究人员对黄病毒进化的大部分理解都是基于复制其遗传物质的缓慢进化的酶序列。然而,研究人员对黄病毒用来入侵细胞的「病毒入侵」蛋白的起源知之甚少,而这些蛋白决定了它们可以感染的宿主范围。Grove认为,这一差距减缓了有效丙型肝炎疫苗的研发,而丙型肝炎每年导致数十万人死亡。
「在序列层面上,事物是如此不同,以至于我们无法判断它们是否相关。」他说,「蛋白质结构预测的出现解开了整个问题,我们可以非常清楚地看到事物。」
研究人员利用 DeepMind 的 AlphaFold2 模型和科技巨头 Meta 开发的结构预测工具 ESMFold,为 458 种黄病毒物种的蛋白质生成了超过 33,000 个预测结构。ESMFold 基于经过数千万个蛋白质序列训练的语言模型。
与 AlphaFold 不同,它只需要单个输入序列,而不是依赖于来自类似蛋白质的多个序列,因此它可能对于研究最神秘的病毒特别有用。
预测的结构使作者能够识别出与已知黄病毒序列截然不同的病毒入侵蛋白。他们发现了一些意想不到的联系。例如,包括丙型肝炎病毒在内的病毒亚群使用与他们在猪瘟病毒中发现的系统类似的系统感染细胞——猪瘟病毒包括引起猪出血热的经典猪瘟病毒和其他动物病原体。
比较后显示,该病毒的入侵系统与许多其他黄病毒的入侵系统不同。「对于丙型肝炎病毒及其近亲,我们不知道其入侵系统来自何处。它可能是由这些病毒在很久以前『发明』的。」Grove 说。
从细菌中窃取
预测的结构还表明,寨卡病毒和登革热病毒中研究透彻的入侵蛋白与 Grove 所说的基因组巨大的「奇怪而又奇妙」的黄病毒(包括可导致人类发烧的 Haseki 蜱病毒)具有相同的来源。另一个令人意外的是,一些黄病毒中似乎有一种从细菌中偷来的酶。
澳大利亚悉尼大学的病毒学家 Mary Petrone 表示:「这将是史无前例的。」要不是她的团队今年在一种特别奇怪而又奇妙的黄病毒物种中发现了类似的盗窃行为,情况就更是如此。她补充道:「基因盗窃在塑造黄病毒进化方面发挥的作用可能比之前认为的更大。」
瑞士洛桑大学计算生物学家 David Moi 表示,黄病毒研究只是冰山一角,其他病毒甚至一些细胞生物的进化史很可能会被人工智能改写。「我们将用新一代工具重新讲述它们的故事。」他说,「现在我们可以看得更远一些,所有这些事情都必须进行一些更新。」
相关报道:https://www.nature.com/articles/d41586-024-02970-w