压缩率达10的48次方，实现蛋白序列空间极端压缩，清华EvoAI登Nature子刊

编辑 | 萝卜皮

设计功能更佳的蛋白质需要深入了解序列和功能之间的关系，这是一个难以探索的广阔空间。通过识别功能上重要的特征来有效压缩这一空间的能力极其宝贵。

清华大学的研究团队建立了一种称为 EvoScan 的方法，用于全面分割和扫描高适应度序列空间，以获得能够捕捉其基本特征（尤其是在高维度中）的锚点。

该方法适用于任何能够与转录输出耦合的生物分子功能研究。

然后，研究人员开发深度学习和大型语言模型，以从这些锚点准确地重建空间，从而无需先前的同源性或结构信息即可计算预测新的、高度拟合的序列。

他们将这种混合实验计算方法（称为 EvoAI）应用于阻遏蛋白，发现仅 82 个锚点就足以压缩高适应度序列空间，压缩率为 10⁴⁸。

该研究以「EvoAI enables extreme compression and reconstruction of the protein sequence space」为题，于 2024 年 11 月 11 日发布在《Nature Methods》。

蛋白质工程和设计可以创建具有优化功能的蛋白质，用于生物技术、医学和合成生物学的各种应用。

蛋白质工程的基本挑战是理解和操纵蛋白质适应度景观，这是一个高维且复杂的空间，包含大量可能的序列和功能。

尽管过去几十年来科学家们进行了大量尝试来寻找这个空间中的高适应度序列，但我们对这个空间的规则和特征的理解仍然比较浅层。

虽然现有的定向进化技术能提供有价值的信息，但这些实验方法需要在精确度与覆盖度之间进行权衡，且通常无法充分考虑高维空间中的自然选择压力。

计算方法，如基于结构或序列的建模，虽然能评估更大的序列空间，但受限于训练数据的可用性，且往往忽略了生物学因素。

EvoAI

理想的方案应结合高通量实验数据和高效的计算模型，通过识别「锚点」来压缩设计空间，为深度学习模型提供指导，探索整个适应性景观。

在最新的研究中，清华大学的研究人员开发了 EvoAI，这是一种经验性地询问序列空间，然后对其进行建模、压缩和重建的方法。该方法结合了高通量实验进化和计算方法来捕捉和学习空间的基本特征。

图示：EvoScan 方案，蛋白质-蛋白质相互作用进化的开发和验证。（来源：论文）

研究人员首先开发了一种进化扫描方法，该方法通过结合基于 EvolvR 的分段诱变系统来适应噬菌体辅助非连续进化 (PANCE)。

然后，团队开发了一个深度学习和大型语言模型，从这些锚点重建序列空间并设计新的蛋白质，所有十种蛋白质都表现出比野生型（WT）大大提高的活性（高达 11 倍）。

研究人员将 EvoAI 应用于阻遏蛋白，结果显示仅 82 个锚点就足以压缩高适应度序列空间，压缩率为 10⁴⁸。

图示：EvoScan 生成的 82 个锚点的遗传关系和特征。（来源：论文）

几个重要优势

与现有方法相比，该方法有几个重要优势。

首先，它平衡了现实的适应度优化和序列空间的均匀采样，可以快速探索高维度，生成更多样化和功能性的变体，并提供有关序列功能关系的更丰富信息。

其次，通过在 EvoAI 中集成经验进化扫描和深度学习模型，它可以利用两种方法的优势。它可以利用深度学习学到的属性来动态地指导扫描过程。可解释的深度学习的未来发展可以揭示潜在的规则或模式，并深入了解蛋白质如何适应和克服进化的限制或权衡。

图示：彻底的片段扫描以了解蛋白质-配体相互作用的演变。（来源：论文）

第三，该方法可以拓展和研究缺乏结构信息或涉及具有挑战性的相互作用的蛋白质。实验表明，EvoScan 可以捕获具有多种功能的蛋白质的锚点，例如蛋白质-蛋白质、蛋白质-配体和蛋白质-核酸相互作用。

理论上，该方法应该与任何可以与转录输出耦合的生物分子功能兼容（例如，通过小分子传感器的酶），因此可以应用于研究各种生物分子的序列空间。

同时，研究人员表示，研究中测试的化学空间（例如酶反应）或配体空间（例如蛋白质相互作用）可能有所不同，需要进一步探索。

优化方向与展望

研究人员表示，该方法未来可以进一步优化改进。

接下来，研究人员可以使用具有更多原型间隔区相邻基序选项的 Cas9 变体来增加 gRNA 平铺和突变靶向片段的选择。它们还可以修改编辑系统，一次性在多个位点引入突变，避免宿主切换并加快探索过程。

此外，将 EvoScan 的靶向诱变方法整合到 PACE 中可能会实现对序列空间片段的更深入采样。并且，将 EvoScan 与 Evoracle 等基因型重建方法相结合，可以更系统、更智能地探索序列空间。

另外，该系统的模块化使其非常适合自动化，例如最近报道的 PRANCE 方法，并且可以扩大规模以提供不同蛋白质靶标更全面的适应度景观分析数据，说明高适应度基因型的设计空间的极端压缩性是普遍的还是不寻常的，或者整个蛋白质适应度景观是否可压缩。

图示：锚点和深度学习重建了高适应度基因型的设计空间。（来源：论文）

研究人员还希望他们的方法能够激发人们对基因型和表型之间的关系以及生物系统进化的新见解。设计空间的可压缩性可能表明，大自然以某种方式找到了一种方法，通过达尔文进化论在地球上相对较短的生命期内搜索看似无限的空间。大型有性群体中染色体区域的基因重组可能使这种维度压缩从而促进进化。

然而，重要的是要认识到自然进化是多方面的，受到不同的选择压力、波动的环境条件、条件中性和基因组背景的影响——这些因素在目前的方法中尚未完全考虑。

该方法将来与高通量实验相结合，可能有助于研究生物系统进化结果的路径依赖性，并为生物技术和生物医学应用中的进化和蛋白质设计提供宝贵的见解。

论文链接：https://www.nature.com/articles/s41592-024-02504-2

理论蛋白质深度学习生物语言模型清华大学