2024/12/04 14:20

仅总参数量0.1%、单GPU 15分钟完成微调，人类基因组基础模型NT登Nature子刊

编辑 | 萝卜皮

从 DNA 序列预测分子表型仍然是基因组学中的一个长期挑战，通常是由于注释数据有限以及无法在任务之间转移学习所致。

在这里，英国伦敦 InstaDeep 的研究人员提出了在 DNA 序列上进行预训练的基础模型，称为 Nucleotide Transformer；其参数范围从 5000 万到 25 亿，并整合了来自 3,202 个人类基因组和 850 个不同物种基因组的信息。

这些 Transformer 模型可生成特定上下文的核苷酸序列表示，即使在低数据环境下也能实现准确预测。该模型可以以低成本进行微调，来解决各种基因组学应用问题，为从 DNA 序列进行准确的分子表型预测提供了一种广泛适用的方法。

该研究以「Nucleotide Transformer: building and evaluating robust foundation models for human genomics」为题，于 2024 年 11 月 28 日发布在《Nature Methods》。

基础人工智能（AI）模型通过大规模训练，能够处理各种预测任务，显著推动了科技领域的发展。自然语言处理（NLP）中的掩码语言建模，是实现语言理解的一种方法，通过预测句子中的缺失单词，训练模型深入理解语言。

生物学中的早期基础模型通过训练蛋白质序列，利用掩码氨基酸预测任务，展示了在蛋白质结构和功能预测等任务中的优越表现。迁移学习使得这些蛋白质语言模型在数据稀缺情况下超越了传统方法。

除了蛋白质序列，DNA 序列中的编码模式在理解基因组过程中的重要性日益突出，特别是在评估变异影响等方面。现代基因组学面临着数据量庞大、数据模式异常复杂的挑战。

在这里，英国伦敦 InstaDeep 构建了强大的基础模型来编码基因组序列，称为 Nucleotide Transformer（NT），并提出了系统的研究和基准来评估它们的性能。

图示：Nucleotide Transformer 概述。（来源：论文）

该团队通过构建四个大小各异的不同 LM 来进行他们的研究，这些 LM 的参数数量从 5 亿到 25 亿不等，比 DNABERT-2 大 20 倍，比 Enformer 主干模型大 10 倍。这些模型在三个不同的数据集上进行了预训练，包括人类参考基因组、3,202 个不同人类基因组的集合以及来自不同物种的 850 个基因组。

为了评估 NT 在适应各种任务时的性能稳定性，团队在 18 个不同的基因组策划预测任务上训练了每个模型，并使用系统的十倍交叉验证程序将它们与三个替代 DNA 基础模型以及一个最先进的非基础模型进行了比较。

图示：Nucleotide Transformer 模型在微调后准确预测了不同的基因组学任务。（来源：论文）

此外，为了扩大评估范围，研究人员将表现最佳的模型与三个针对特定任务进行了优化的最先进的监督基线模型进行了比较。

为了解读在预训练期间学习到的序列特征，团队探索了模型的注意力图和困惑度，并对它们的嵌入进行了数据降维。

此外，研究人员通过基于零样本的评分评估了嵌入对人类功能重要遗传变异影响的建模能力。在初始实验结果的基础上，他们开发了第二组四个 LM，其参数大小从 5 亿个减少到 5000 万个，以研究此类模型的缩放规律。

该团队成功构建了一个模型，仅使用十分之一的参数数量、将感知场大小增加了一倍，便达到了之前最佳模型的性能。

图示：Nucleotide Transformer 模型获得了有关基因组元件的知识。（来源：论文）

并且，与全模型微调 (IA3) 相比，该研究提供了相对快速且资源高效的微调程序，且差异很小。

值得注意的是，该团队的微调方法仅需要总参数数量的 0.1%，即使是这里最大的模型也可以在单个 GPU 上在 15 分钟内完成微调。

与广泛的探索练习相比，这种技术在使用更少的计算资源的情况下产生了更好的结果，证实了下游模型工程可以带来性能大幅改进和优化。

图示：高效的模型架构允许匹配性能，同时大幅减少模型参数的数量。（来源：论文）

总之，该研究的结果基于不同的基因组预测任务，表明物种内（在单个物种的多个基因组上进行训练时）和物种间（在不同物种的基因组上进行训练时）的变异性都会显著影响任务间的准确性。

在大多数考虑的人类预测任务中，用不同物种的基因组训练的模型比只用人类序列训练的模型表现更好。这表明，用不同物种训练的 Transformer 模型已经学会了捕捉可能对不同物种具有功能重要性的基因组特征，从而能够在各种基于人类的预测任务中更好地推广。

基于这一发现，研究人员认为未来的研究可能会受益于利用跨物种遗传变异，包括确定对这种变异进行采样的最佳方式。另一个有趣的途径是探索对物种内变异进行编码的不同方式。

同时研究人员表示，这里将所有个体基因组的序列混合在一起的方法只取得了有限的改进，因此表明当大多数基因组是共享的时，利用来自不同个体的基因组可能并不那么简单。

论文链接：https://www.nature.com/articles/s41592-024-02523-z

理论生物学科学人工智能基因组学AI for Science

相关数据

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

交叉验证技术

交叉验证，有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段，以便减少像过拟合的问题，得到该模型将如何衍生到一个独立的数据集的提示。

来源：维基百科

语言模型技术

统计式的语言模型是借由一个几率分布，而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。

来源：维基百科