编辑 | 萝卜皮
为了了解基因组序列如何影响多尺度三维(3D)基因组架构,德克萨斯大学西南医学中心的 Jian Zhou 博士提出了一种基于序列的深度学习方法 Orca,它直接从序列预测从千碱基到全染色体尺度的 3D 基因组架构。
Orca 捕获结构的序列依赖性,包括染色质区室和拓扑相关域,以及从 CTCF 介导的增强子-启动子相互作用和 Polycomb 介导的与细胞类型特异性的相互作用的不同类型的相互作用。
Orca 能够实现各种应用,包括预测结构变异对多尺度基因组组织的影响,它概括了实验研究的不同大小(300 bp 到 90 Mb)变异的影响。
此外,Orca 使计算机虚拟屏幕能够在不同尺度上探测 3D 基因组组织的序列基础。在亚兆级碱基规模上,它预测了细胞类型特异性基因组相互作用的特定转录因子基序。在隔室尺度上,序列活动的虚拟屏幕显示了染色质隔室的序列基础模型,其中转录起始位点具有重要作用。
该研究以「Sequence-based modeling of three-dimensional genome architecture from kilobase to chromosome scale」为题,于 2022 年 5 月 12 日发布在《Nature Genetics》。
Orca相关代码:
https://github.com/jzhoulab/orca
https://orca.zhoulab.io
https://github.com/jzhoulab/orca_manuscript
论文链接:https://www.nature.com/articles/s41588-022-01065-4
只有大约 1% 的人类 DNA 编码制造蛋白质的指令。
近几十年的研究表明,大部分剩余的非编码遗传物质都含有调控元件,例如启动子、增强子、消音器和绝缘子,它们控制着编码 DNA 的表达方式。Zhou 博士解释说,序列如何控制大多数这些调节元件的功能尚不清楚。
为了更好地理解这些调控成分,Zhou 和普林斯顿大学以及 Flatiron 研究所的同事共同开发了一个名为 Sei 的深度学习模型,Sei 是一个将人类遗传学数据与序列信息相结合以发现性状和疾病的调控基础的框架。
Sei 使用深度学习模型学习了一个称为序列类的调节活动词汇表,该模型可以预测超过 1,300 个细胞系和组织的 21,907 个染色质谱。序列类别基于不同的调节活动(例如细胞类型特异性增强子功能)提供序列和变异效应的全局分类和量化。
这些预测得到组织特异性表达、表达数量性状基因座和进化约束数据的支持。此外,序列类别能够表征复杂性状的组织特异性调控结构,并为个体调控致病突变产生机制假设。
这项工作通过聚集全基因组变异关联信号和预测单个突变的影响,证明了序列类别在发现人类疾病中的调控中断方面的潜力。研究人员期望序列类别和 Sei 模型成为理解非编码突变对人类健康的机制影响的有力工具。
该研究以「A sequence-based global map of regulatory activity for deciphering human genetics」为题,于 2022 年 7 月 11 日发布在《Nature Genetics》。
Sei 相关代码:
https://github.com/FunctionLab/sei-framework
https://hb.flatironinstitute.org/sei
论文链接:https://www.nature.com/articles/s41588-022-01102-2
「综合起来,这两个程序提供了一个更完整的画面,说明 DNA 序列的变化,即使是在非编码区域,如何对其空间组织和功能产生巨大影响。」两项研究的通讯作者 Jian Zhou 博士说。
Zhou 表示,他和他的同事计划使用 Sei 和 Orca,进一步探索基因突变在导致疾病分子和物理表现方面的作用。希望这两项研究可以为治疗相关疾病提供新方法。
相关报道:https://phys.org/news/2022-08-artificial-intelligence-tools-dna-regulatory.html