Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

登Nature,AI设计DNA开关,MIT团队实现精确的细胞控制

图片

编辑 | 萝卜皮

近年来,基因编辑技术以及各种基因治疗方法使科学家能够改变活细胞内的基因。然而,只影响特定细胞类型或组织中的基因,而不是影响整个生物体的基因,一直很困难。部分原因是人们对控制基因表达和抑制的 DNA 开关 [即顺式调控元件 (CRE)] 的理解仍面临挑战。

杰克逊实验室(JAX,The Jackson Laboratory)、麻省理工学院(MIT)和哈佛大学布罗德研究所以及耶鲁大学的研究人员利用人工智能设计了数千个新的 DNA 开关,可以精确控制基因在不同细胞类型中的表达。他们的新方法开启了控制基因在体内何时何地表达的可能性,以前所未有的方式造福人类健康和医学研究。

「这些合成设计的元素的特别之处在于,它们对其设计的目标细胞类型表现出了显著的特异性。」杰克逊实验室副教授兼论文共同通讯作者 Ryan Tewhey 博士说,「这为我们创造了机会,让我们可以在不影响身体其他部位的情况下,仅在一种组织中提高或降低基因的表达。」

该研究以「Machine-guided design of cell-type-targeting cis-regulatory elements」为题,于 2024 年 10 月 23 日发布在《Nature》。

图片

论文链接:https://www.nature.com/articles/s41586-024-08070-z

顺式调控元件 (CRE) 控制基因表达,协调组织身份、发育时间和刺激反应,这些共同决定了体内数千种独特的细胞类型。虽然在需要组织特异性的治疗或生物技术应用中战略性地整合 CRE 具有巨大潜力,但不能保证自然产生出适合这些预期目的的最佳 CRE。

科学家们知道,人类基因组中有数千种不同的 CRE,每种都发挥着略有不同的作用。但 CRE 的语法一直很难弄清楚,「没有简单的规则来控制每个 CRE 的作用。」JAX Tewhey 实验室的计算科学家,论文的第一作者之一 Rodrigo Castro 博士解释说,「这限制了我们设计仅影响人体某些细胞类型的基因疗法的能力。」

「如果我们从语言的角度来思考,这些元素的语法和句法就很难理解。因此,我们尝试构建机器学习方法,以便学习比我们自己能学习的更复杂的代码。」

人工智能来设计 CRE

Castro 所在的联合研究团队创建了 Malinois,这是一个深度卷积神经网络 (CNN),用于预测任何序列的细胞类型相关信息 CRE 活性(通过 MPRA 测量)。

图片

图示:Malinois 能够准确预测染色体外报告基因中 CRE 的转录激活。(来源:论文)

在此基础上,研究团队提出了一种从头设计新型合成 CRE 的方法 CODA,该 CRE 能够在三种转化细胞系中驱动细胞类型特异性转基因表达。

「该项目本质上提出了一个问题:『我们能否学会读取和编写这些调控元件的代码?』」耶鲁大学遗传学助理教授、该研究的通讯作者之一 Steven Reilly 博士说。

图片

图示:CODA 有效地设计了特定于细胞类型的 CRE。(来源:论文)

研究人员通过整合之前在跨细胞类型建模调控语法、高效序列空间搜索和可并行验证数千个 CRE 的 MPRA 实验系统方面的创新来实现这一目标。

研究人员使用了最近生成的统一处理的 MPRA 实验数据库,该数据库表征了前所未有的数量的 CRE,以训练精确的深度学习模型,该模型可以快速预测任何序列的活动。

「天然的 CRE 虽然数量众多,但只代表了可能的遗传元素的一小部分,而且它们的功能受到自然选择的限制。」该研究的共同第一作者、Sabeti 实验室的博士后研究员 Sager Gosai 博士说,「这些人工智能工具在设计基因开关方面具有巨大潜力,可以精确调整基因表达,以实现生物制造和治疗等超出进化压力范围的新应用。」

三种细胞系中测试

结合序列生成算法,研究人员部署他们的模型在三种细胞系中生成具有程序特异性的数千种合成 CRE,并使用 MPRA 在体外对其进行功能验证,并通过探测小鼠和斑马鱼的生理相关组织在体内对其进行功能验证。

在转化细胞系中检测的报告系统中,CODA 设计的合成序列在驱动细胞类型特异性基因表达方面确实优于天然序列。研究人员表明,CODA 可以识别出通常表现优于天然序列的合成序列,其效率远高于随机搜索,但无法确定全局最优值。

CODA 设计的合成 CRE 通过以独特的组合部署靶向激活和脱靶抑制 TF 来实现更高的特异性,而这种组合在人类基因组中并不常见。这说明该模型已经学习了控制 CRE 的基本规则的一部分,并且能够将这些知识推广到很少观察到的 TF 组合。

使用 Malinois(CRE 转录输出的直接模型),该团队能够识别具有中等细胞类型特异性活性的基因组序列,尽管程度低于合成序列。

图片

图示:解释功能序列内容。(来源:论文)

需要注意的是,在该研究的转化细胞系中,在识别基因组中能够进行细胞类型特异性报告基因表达的序列方面,Malinois 比传统的 CRE 活性标记(如 DNase 和 H3K27ac)更熟练。这强调了在生成用于训练高性能模型的库时,需要仔细考虑通常研究的候选 CRE 之外的序列。

体内评估

该团队在体外建模、生成和测试特定于单个转化细胞系的序列方面的高成功率,促使他们决定将评估这种活性如何扩展到体内复杂组织。尽管存在组织类型不完全保守、异时性和谱系特异性调控语法的潜在挑战,但他们的 CRE 在斑马鱼和小鼠中表现出保守的组织水平跨物种活性。

图片

图示:合成元素的体内验证。(来源:论文)

这些发现表明,体外开发的具有新功能的 CRE 可以在体内类似组织中保持特异性。研究人员通过单一转化的 SK-N-SH 细胞系设计的神经元 synN1 CRE 在小鼠中表现出高度特异性的皮层下表达。

「合成的 CRE 在语义上与天然元素相差甚远,因此对其有效性的预测似乎难以置信。」Gosai 说道,「我们最初预计许多序列会在活细胞内出现异常。」

但事实是「CODA 在设计这些元素方面表现得如此出色,这让我们感到非常惊喜。」Castro 说。

局限性与展望

接下来,需要进一步研究以制定最佳策略,将体外模型转化为体内精确靶向。将人类细胞系与全生物实验模型相结合的综合框架可能是快速识别能够在人类中实现新功能的 CRE 的有效方法。

转基因应用(例如需要组织、细胞类型或患病细胞状态特异性的基因疗法)可能会受益于具有可编程功能的合成 CRE 的设计和验证。在具有更高临床相关性的其他细胞类型中对 MPRA 模型进行训练可以使 CODA 更好地设计具有针对治疗应用量身定制的特异性的 CRE。

随着序列到功能模型的基础技术不断发展,研究人员认为合成元件设计将变得更加可靠,并减少体外和体内验证的实验负担。

该团队表示,该平台的设计可灵活适应任何目标函数。通过在未来将替代实验平台和模型与 CODA 相结合,研究者可以探索合成 CRE 的广阔前景,以实现进化可能未优化的目标,包括药物反应性(例如对糖皮质激素的反应性)、微调表达输出或响应癌细胞特有的复杂语法。

Tewhey 表示:「这项技术为编写具有预定义功能的新调控元件铺平了道路。此类工具不仅对基础研究很有价值,而且可能具有重要的生物医学意义,你可以使用这些元件来控制特定细胞类型中的基因表达,以达到治疗目的。」

相关内容:https://phys.org/news/2024-10-ai-dna-flip-genes-precise.html

理论人工智能基因生物计算AI for Science
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

随机搜索技术

推荐文章
暂无评论
暂无评论~