Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

分类准确率达99%,山大团队提出基于对比学习的基因数据分类方法

图片

编辑 | 萝卜皮

深度神经网络模型的快速进步显著增强了从微生物序列数据中提取特征的能力,这对于解决生物学挑战至关重要。然而,标记微生物数据的稀缺性和复杂性给监督学习方法带来了巨大的困难。

为了解决这些问题,山东大学的研究人员提出了 DNASimCLR,这是一个专为高效基因序列数据特征提取而设计的无监督框架。

DNASimCLR 利用卷积神经网络和基于对比学习的 SimCLR 框架,从不同的微生物基因序列中提取复杂特征。预训练在两个经典的大型未标记数据集上进行,包括宏基因组和病毒基因序列。后续分类任务通过使用之前获得的模型对预训练模型进行微调来执行。

DNASimCLR 的多功能性使其在涉及新基因序列或以前未见过的基因序列的场景中表现良好,使其成为基因组学中各种应用的宝贵工具。

该研究以「DNASimCLR: a contrastive learning-based deep learning approach for gene sequence data classification」为题,于 2024 年 10 月 14 日发布在《BMC Bioinformatics》。

图片

即使是目前最全面的微生物基因数据库也存在数据和标签缺失的问题,这严重限制了许多监督式深度学习方法的有效性。解决这一不完整性是一项迫切需要关注的挑战。

本文针对微生物基因序列数据的表征学习问题,提出了一种基于对比学习的神经网络特征提取方法。

图片

图示:DNASimCLR 框架概述。(来源:论文)

DNASimCLR 的工作流程主要包括两个阶段:对比学习的预训练阶段和分类网络的微调阶段。在预训练阶段,研究人员使用 One-Hot 编码方法将未标记的原始 DNA 基因序列数据转换为适合机器学习的格式。

在预训练阶段,对 One-Hot 编码数据进行随机掩码处理,生成训练数据集。在此阶段,研究人员采用 SimCLR 框架模型来获取未标记序列的向量表示。该过程通过对比学习将基因序列嵌入到固定维度的高维空间中。

在微调阶段,利用预训练阶段得到的特征提取模型,对标注数据采用不进行掩蔽操作的One-Hot编码方法进行编码。研究人员继续进行分类预测的训练,最终得到一个能够确定 DNA 序列类别的分类网络

图片

图示:具有不同读取长度的 sr-WGS 和 lr-WGS 数据的模型准确度结果。(来源:论文)

在性能评估方面,该团队对不同来源的基因组数据库进行了测试。

研究人员用 DNASimCLR 对不同长度(250 bp、500 bp、1000 bp、1300 bp 和 10,000 bp)的读段序列进行了分类和短序列病毒宿主预测,实现了 99% 的显著分类准确率,实现了显著的准确性提升。

并且,这项研究的意义是多方面的。

首先,首次将对比学习应用到微生物基因序列数据的表征学习中,发展了一种新的针对基因数据的数据处理方法,突破了传统SimCLR方法仅适用于图像数据的局限性,拓展了对比学习的应用领域。

其次,该研究提出的微生物基因序列数据分类器在性能上表现出了大幅的提升,为卷积神经网络方法在处理生物数据方面的发展开辟了新的机遇。

第三,由于预训练阶段和分类阶段的分离,该方法可以轻松应用于其他基因组学问题,例如蛋白质功能预测和新病毒检测。

总之,DNASimCLR 代表了利用自监督学习模型进行微生物基因序列特征提取的先进探索。这种方法有可能在生物信息学领域引入创新概念,提供通过卷积神经网络获取生物序列特征的途径。

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05955-8

理论生物学基因AI for Science人工智能
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~