基因组 (DNA) 序列编码大量用于基因调控和蛋白质合成的信息。与自然语言模型类似,科学家提出了基因组学的基础模型,从未标记的基因组数据中学习可概括的特征,然后可以针对下游任务(例如识别调控元件)进行微调。
由于注意力的二次缩放,之前基于 Transformer 的基因组模型使用 512 到 4k 个标记作为上下文(< 人类基因组的 0.001%),极大地限制了 DNA 中远程相互作用的建模。
此外,这些方法依赖标记器来聚合有意义的 DNA 单元,从而失去单核苷酸分辨率,其中细微的遗传变异可以通过单核苷酸多态性 (SNP) 完全改变蛋白质功能。
最近,基于隐式卷积的大型语言模型 Hyena 被证明可以在质量上匹配注意力,同时允许更长的上下文长度和更低的时间复杂度。
利用 Hyenas 新的远程功能,斯坦福大学(Stanford University)的研究人员推出了 HyenaDNA,这是一种在人类参考基因组上进行预训练的基因组基础模型,在单核苷酸水平上上下文长度高达 100 万个标记,比之前基于密集注意力的模型增加了 500 倍。
该研究以「HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution」为题,于 2023 年 6 月 27 日发布在 arXiv 预印平台。
背景
尽管增加上下文长度基准很有趣,但提高基因组学中的上下文长度和表达能力的潜在影响可能更具价值。尽管人类基因组已经被绘制出来,它提供了序列中核苷酸的顺序;但序列空间如何映射到功能、性状、疾病和许多其他问题,仍然是一项正在进行的研究工作。破解遗传密码将有助于我们更好地了解疾病(遗传性疾病),并通过基因表达建模(和识别药物靶点)实现药物发现的突破。
以前的基因组学模型
将基础模型应用于基因组学(例如,DNABERT、Nucleotide Transformer、GenSLM、GENA-LM),将 DNA 建模为生命的「语言」,已经取得了令人惊叹的工作。不幸的是,这些工作受到 Transformer 中注意力二次缩放的限制,并且到目前为止通常使用 512 - 4k 标记之间的上下文长度,具体取决于密集或稀疏注意力。这还不到人类基因组长度的 0.001%。(与具有相当“短程”序列的蛋白质模型相比,基因组学的建立要少得多。)
同样重要且具有挑战性的是对高分辨率的需求。事实上,所有基因组 FM 都依赖标记器来聚合有意义的 DNA 单元或「单词」,或使用固定的 k 聚体,这些固定的 k 聚体具有大小为 k 且彼此重叠的固定「单词」。这些「技巧」也有助于延长上下文。然而,单核苷酸多态性(SNP)的存在表明,单个 DNA 特征的变化可以完全改变基因、蛋白质功能,或导致细胞进入疾病状态。
这意味着长上下文和单核苷酸分辨率在基因组学中都至关重要!相比之下,对于自然语言来说,章节中单个字符或单词的变化并不会真正改变语义。已经有单字符分词器的研究,但他们一直在处理较长的序列和表现不佳的 BPE 或子词分词器。
HyenaDNA:Hyena 与基因组学的结合
HyenaDNA 是一种基因组基础模型,在单核苷酸分辨率下对长达 100 万个标记的序列进行了预训练。随着上下文长度的增加,研究人员可以通过改善困惑度来达到更好的性能。
HyenaDNA 的训练速度比使用 FlashAttention 的 Transformer 快 160 倍,使用单字符分词器,并且每层都有全局上下文。研究人员将 HyenaDNA 应用于 28 个基因组任务(SOTA 应用于 23 个),使用的参数比以前的基因组模型少得多,并且示例适合 Colab。
图示:研究人员在模型大小和序列长度方面预训练了一系列 HyenaDNA 模型。
含有 HyenaDNA 的 1M 核苷酸标记
为了对 DNA 和这些相互作用进行建模,HyenaDNA 使用简单的 Hyena 运算符堆栈作为其骨干(甚至更多架构细节),并使用单个字符标记器处理 DNA 序列。通过学习 DNA 序列的分布,HyenaDNA 使用无监督学习来隐式学习基因编码方式以及非编码区如何参与调节基因表达的表示。
技术亮点:
研究人员训练了一系列具有不同大小和上下文长度的 HyenaDNA 模型。
1、预训练:上下文长度高达 1M 个 token,比以前的基因组 FM 长 500 倍;
2、单核苷酸解析和标记化(词汇量为 4!),每一层都有全局上下文;
3、序列长度 (N Log N) 呈二次方缩放,例如,序列长度为 100 万时,训练速度比 Transformer 快 160 倍;
4、引入序列长度预热调度程序来解决不稳定性并进一步加速训练,例如,450k 核苷酸的物种分类训练时间减少 40%
该团队探索了更长的上下文可以带来什么——包括在基因组学中首次使用上下文学习来简单地适应新任务,而无需更新预训练的模型权重。
在 Nucleotide Transformer 的微调基准上,HyenaDNA 使用参数和预训练数据少几个数量级的模型,在 17 个数据集中的 12 个上达到了 STOA。
在 GenomicBenchmarks 上,HyenaDNA 在所有 8 个数据集上平均超过 SotA +9 个准确度点。
论文链接:https://arxiv.org/abs/2306.15794
相关报道:https://hazyresearch.stanford.edu/blog/2023-06-29-hyena-dna