Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

扩散模型+深度学习双剑合璧,生成式AI破解染色质构象

图片

编辑丨&

人体内的每一个细胞都包含相同的基因序列,但每个细胞只表达这些基因的一个方面。这些细胞特异性基因表达模式确保脑细胞与皮肤细胞不同,部分由染色质的三维结构决定,遗传物质控制着每个基因的可及性。

高通量测序和成像技术的最新进展大大提高了如今研究单个细胞基因组组织的能力。然而,现有方法通常费力且耗时,阻碍了对不同细胞环境中染色质构象变异性的全面分析。

麻省理工学院的化学家们现在想出了一种使用生成式人工智能来确定这些 3D 基因组结构的新方法。他们的技术可以在几分钟内预测数千个结构,这比现有的结构分析实验方法要快得多。

他们的研究以「ChromoGen: Diffusion model predicts single-cell chromatin conformations」为题,于 2025 年 1 月 31 日发布在《Science Advances》。

图片

「我们的目标是尝试从潜在的 DNA 序列中预测三维基因组结构,」化学副教授、该研究的资深作者 Bin Zhang 说。「现在我们可以做到这些,这使得它可以与尖端的实验技术相提并论,并开辟很多有趣的机会。」

ChromoGen

了解基因组的三维 (3D) 组织对于揭示其功能复杂性和在基因调控中的作用至关重要。多年来,分子生物学技术的进步为基因组构象提供了宝贵的见解。这些见解揭示了染色质结构如何促进基因周围空间环境的建立,有助于在适当的时间募集适当的分子来协调转录。

最近,深度学习技术为直接从测序数据预测单细胞染色质构象提供了有潜力的研究方向。与序列特征和群体平均值之间相对简单的映射不同,序列特征映射到单个 3D 结构本质上是随机的。因此,预测单个染色质结构需要一个固有的随机模型来理解和再现这种异质性。

为了在捕获其异质性的同时预测单细胞染色质结构,团队引入了 ChromoGen,它是一种扩散模型,已被证明在文本到图像应用以及预测配体和蛋白质分子的 3D 坐标方面具有很强的能力。

图片
图 1:ChromoGen 在使用序列数据对染色质组织进行从头预测时遵循的程序图示。(图源:论文)

微调的 EPCOT 模型将 DNA 序列和脱氧核糖核酸酶序列(DNase-seq)数据转换为信息丰富的低维数字嵌入。接下来,由微调模型创建的嵌入使用无分类器指导的去噪扩散概率模型(DDPM)对采样的分布进行条件处理。

此外,距离图自然不受 3D 构象的旋转和平移的影响,许多神经网络架构都难以理解,并且距离图可以按照材料和方法中概述的过程轻松转换为笛卡尔坐标。

为了研究通用区域非特异性系综的特性,团队通过组合来自更广泛数据集中每个区域的 200 个生成的结构来近似一个通用集成,并计算了由各种序列长度分隔的基因座之间空间距离的概率分布

图片
图 2:ChromoGen 可准确捕获在单细胞染色质结构中观察到的构象分布。(图源:论文)

与先前对单个接触对的分析相比,这种方法允许对染色质构象进行更全面的比较。使用生成的构象支持 ChromoGen 产生高度复杂结构的能力,这些结构涵盖广泛的构象和结构基序。

更多更准确的应用测试

验证了生成的构象的通用物理特性后,他们接下来研究了 ChromoGen 捕获具有生物学意义的结构特征的能力。在所有情况下,生成的中位距离图捕获了群体中可见的关键结构特征。同样,生成的单个结构与它们从 Dip-C 衍生的对应结构非常相似。

为了定量评估生成结构和实验结构之间的一致性,团队对预测数据集所包含的整个基因组区域进行了多次分析。结果显示使用生成的和 Dip-C 构象计算的中位距离图始终具有强相关性。

而在跨细胞类型的预测上,以前的模型已经成功地使用染色质可及性数据来预测不同细胞类型之间群体平均染色质组织模式的差异。所以预计提供给 ChromoGen 的数据应该允许它预测具有细胞类型特异性的构象集合。

图片
图 3:ChromoGen 产生准确的、细胞类型特异性的染色质构象。(图源:论文)

尽管显微镜成像显示,去除黏连蛋白的细胞在群体中位距离图中并未出现,但它们的确存在。正如成像和理论研究所表明的那样,它们还与染色质组织到单个细胞内包装结构域的新兴模型一致。

功能总结

ChromoGen,一种有效生成区域和细胞类型特异性染色质构象的智能框架。ChromoGen 产生的构象再现了群体 Hi-C 实验中揭示的各种结构特征以及在单细胞数据集中观察到的异质性。

经过训练后,该模型可以在比 Hi-C 或其他实验技术更快的时间尺度上生成预测。其可以在 20 分钟内在一个 GPU 上生成特定区域的一千个结构。

研究人员还发现,该模型可以准确预测来自其训练所针对的细胞类型以外的细胞类型的数据。这表明它可能有助于分析不同细胞类型的染色质结构如何不同,以及这些差异如何影响它们的功能。该模型还可用于探索单个细胞中可能存在的不同染色质状态,以及这些变化如何影响基因表达。

研究员表示,他希望他们可以通过这份模型来解决很多有趣的问题,譬如探索特定 DNA 序列中的突变如何改变染色质构象。

论文链接:https://www.science.org/doi/10.1126/sciadv.adr8265

理论基因序列深度学习框架基因AI for Science
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

推荐文章
暂无评论
暂无评论~