Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

速度提升3200倍,准确率提高40%!深度神经网络+纠错码革新DNA存储技术

图片

编辑 | 2049

在全球数据量呈指数级增长的今天,传统存储技术的扩展速度已难以跟上。

脱氧核糖核酸(DNA)分子作为一种信息存储介质,以其卓越的信息密度、增强的数据耐久性和几乎可忽略的维护能耗,正逐渐成为解决存储危机的关键方案。

然而,DNA 存储技术面临可扩展性和准确性之间的权衡困境,成为商业化落地的主要障碍。

来自以色列理工学院(Technion)计算机科学学院的研究团队开发了一种创新方法,通过将深度神经网络(DNN)、基于张量积的纠错码(Error-Correcting Codes,ECC)和安全边际机制整合到一个统一的流程中,实现了 DNA 存储系统在高噪声环境下的高效可靠运行。

该研究以「Scalable and robust DNA-based storage via coding theory and deep learning」为题,发表于 2025 年 2 月 21 日的《Nature Machine Intelligence》。

图片

论文链接:https://www.nature.com/articles/s42256-025-01003-z

数据链接:https://zenodo.org/records/13896773

代码地址:https://github.com/itaiorr/Deep-DNA-based-storage.git 

研究背景:DNA 存储系统的挑战

DNA 存储通过将数字信息编码成 DNA 序列并合成对应的 DNA 链,具备理论上几乎无限的存储容量。

然而,此过程中的关键挑战在于信息检索系统,其需要克服 DNA 合成和测序过程中产生的各类错误,包括碱基替换、插入和删除。

传统的 DNA 信息检索流程包括聚类、重建和解码三个关键环节,其中每一步都面临着算法复杂度和准确性之间的平衡问题。

此前的解决方案往往采用内部编码或外部编码技术,通过添加冗余符号来检测和纠正错误。这类方法未能充分利用 DNA 合成和测序过程中的固有冗余,导致编码方案冗余度较高,同时需要处理更多的 DNA 链和读取序列,系统效率较低。

DNAformer:端到端信息检索解决方案

研究团队提出的 DNAformer 解决方案采用模块化编码方案,将 ECC 和约束码结合在 DNA 合成和存储之前。这种设计允许将大型数据集划分为更小的块,实现快速、简便的数据访问。

DNAformer 的创新在于信息检索流程。首先,系统采用基于索引的简单分箱算法进行聚类,这种方法虽然会引入噪声,但极大提升了处理速度。接着,系统使用 DNN 从读取序列重建原始编码序列。

该网络采用卷积和 Transformer 的组合架构,后接置信度过滤器,用于筛选准确预测和不准确预测。对于可能不准确的预测,系统会应用基于动态规划的条件概率逻辑(Conditional Probability Logic,CPL)算法进行二次重建,该算法无需先验知识即可估计聚类中的错误概率,有效平衡了准确性和速度的权衡。

为避免高昂的 DNN 训练数据获取成本,研究团队使用小规模真实数据分析合成、聚合酶链式反应(Polymerase Chain Reaction,PCR)和测序的错误率,构建了 SOLQC 工具模型,进而生成大量模拟训练数据。这种方法只需为每种合成和测序技术建模一次,使解决方案在成本和规模上更具优势。

图片

图示:DNA 信息检索的端到端解决方案。(来源:论文)

实验验证与性能分析

研究团队使用 Illumina miSeq 和 Oxford Nanopore MinION 两种不同的测序技术,对总计 3.1 MB 的信息进行了实验验证。实验数据包括压缩文件夹(包含图像、24 秒音频片段和文本文件)及随机信息位,共分为两个文件,每个约 1.5 MB。

图片

图示:用于 DNA 实验的数据。(来源:论文)

与当前领先的解决方案相比,DNAformer 在速度上实现了 3200 倍的提升,准确率提高了 40%。在高噪声环境下,该系统提供了每碱基 1.6 比特的编码率,远超现有方案。具体来说,在 Illumina 数据集上,DNAformer 的失败率仅为 0.0055%;在 Nanopore 数据集上,失败率为 1.65%。

图片

图示:DNAformer 与 SOTA DNA 重建方法的比较。(来源:论文)

此外,DNAformer 在数据模态方面表现出色,不依赖于底层语义或数据结构,而是专注于合成和测序过程中的噪声特性,使其能够以相似的性能处理非结构化和结构化数据。

系统的另一创新在于编码方案,它使用基于张量积的模块化编码方案,既充分利用上游步骤中的固有冗余,又减少了编码方案中所需的冗余度。通过引入安全边际机制,该系统能够量化在特定工作条件下的稳健性,进一步提升可靠性。

图片

图示:信息检索性能评估。(来源:论文)

未来展望与意义

DNAformer 成功克服了 DNA 存储系统中失败率和运行时间的主要瓶颈,通过结合 DNN 与 ECC 的方法,显著改进了解码过程并缩短了系统响应时间。这一突破为 DNA 存储的商业化应用扫除了重要的技术障碍。

然而,要实现规模化应用仍需解决 DNA 合成与测序成本、长期稳定性以及法律和标准化等问题。随着相关技术的进步,DNAformer 这类端到端解决方案将在大规模数据存储系统中发挥越来越重要的作用。

未来研究可以进一步优化神经网络架构(如改进 Transformer 模型)、探索更高效的编码方案(如针对插入和删除错误的专用编码),并开发更智能的聚类算法以降低系统对聚类大小和噪声水平的敏感性,使 DNA 存储技术更加稳健和经济可行。

理论深度神经网络存储LeanDNAAI for Science
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

动态规划技术

动态规划(也称为动态优化),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题,只解决一次子问题并存储它的解决方案(solution),下一次遇到同样的子问题时无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间。动态规划适用于有最优子结构(Optimal Substructure)和重叠子问题(Overlapping Subproblems)性质的问题。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~